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2017 年 国务 院 印 发 了 《关于 印发 新 一 代 人 工 智 能 发 展 规划 的 通知 》, 提出 要 围绕 教育 、 
医疗 、 养 老 等 迫切 民生 需求 ， 加 快 人 工 智能 创新 应 用 。 要 发 展 智能 教育 ， 利 用 智能 技术 加 
快 推动 人 才 培 养 模 式 、 教 学 方法 改革 ， 构 建 包含 智能 学 习 、 交 互 式 学 习 的 新 型 教育 体系 。 
更 进一步 提出 要 实施 全 民智 能 教育 项 目 ， 在 中 小 学 阶段 设置 人 工 智 能 相关 课程 ， 逐 步 推广 
编程 教育 ， 鼓 励 社会 力量 参与 富 教 于 乐 的 编程 教学 软件 、 游 戏 软件 的 开发 和 推广 。 在 目前 
的 国际 国内 大 背景 下 ， 人 工 智 能 教育 不 仅 是 个 人 成 长 的 需要 ， 更 是 实现 创新 型 国家 发 展 的 
需要 ， 是 我 国 成 为 世界 强国 的 需要 ， 而 人 工 智能 教育 必 将 从 中 学 阶段 展开 。 

人 工 智 能 教育 的 方式 和 方法 ， 可 以 大 致 分 为 如 下 两 种 : 一 是 在 信息 技术 课程 中 开展 间 
分 人 工 智能 基础 知识 的 内 容 教 学 ;二 是 在 具备 一 定数 学 基础 的 高 中 阶段 开展 人 工 智能 的 选 
修 课 程 。 然 而 ， 单 纯 的 知识 性 、 科 普 性 的 人 工 智 能 知识 的 讲授 缺少 实践 过 程 ， 缺 少 对 动手 
能 力 的 培养 。 因 此 ， 我 们 编写 了 本 套 教 材 。 

本 套 教 材 以 人 工 智能 教育 为 主线 ， 以 Python 编程 为 实现 手段 ， 以 在 线 编程 训练 平台 和 人 
工 智能 案例 实现 平台 为 辅助 工具 ， 同 时 辅 以 我 们 自主 开发 的 一 系列 机 器 人 为 载体 ， 打 造 立体 
沉浸 式 的 人 工 智能 学 习 体 系 。 之 所 以 选择 Python 语言 为 实现 手段 ， 主 要 是 考虑 到 Python 具 
有 与 人 工 智能 天 然 的 切合 性 ， 而 且 语言 本 身 入 门 相 对 容易 ， 特 别 适 合 高 中 阶段 的 学 生 学 习 。 

乐 学 系列 机 器 人 《中 学 系列 ) 是 由 哈工大 机 器 人 《合肥 ) 国际 创新 研究 院 独立 开发 的 
具有 自主 知识 产权 的 机 器 人 产品 。 该 系列 产品 可 以 自由 组 装 ， 自 由 编程 。 在 锻炼 动手 能 
的 同时 具有 学 科 特 色 , 能 够 促进 物理 、 数 学 学 科 的 学 习 ; 乐 学 系列 机 器 人 支持 Python 编程 ， 
具有 丰富 的 传感器 ， 可 以 实现 人 工 智能 的 绝 大 部 分 要 求 ， 包 括 视 觉 、 语 音 、 自 然 语 言 处 理 、 
推理 、 逻 辑 、 深 度 学 习 等 系列 的 功能 。 学 生 可 以 在 乐 学 系列 机 器 人 上 围绕 人 工 智能 进行 编 
程 学 习 ， 通 过 机 器 人 可 以 直观 地 观察 智能 编程 的 效果 。 总 地 来 说 ， 本 套 教材 是 以 人 工 智能 
为 主线 ， 融 合 学 科 特 点 的 编程 能 力 培养 ， 以 自主 开发 的 机 器 人 为 载体 ， 驱 动人 工 智能 的 实 
践 ， 以 信息 素养 的 提升 为 内 涵 目 标 ， 以 小 组 工程 项 目 为 牵引 ， 实 现 高 中 生 团队 合作 能 力 的 
提升 。 

本 套 教材 目前 规划 总 计 两 册 ， 第 一 册 为 《人 工 智能 基础 教程 : Python 篇 〈 青 少 版 ) 》， 
主要 讲授 Python 的 编程 基础 及 其 人 工 智能 初步 ， 在 这 部 分 内 容 中 ， 我 们 结合 高 中 教育 的 学 
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科 特 点 和 高 中 学 生 的 认 知 特点 ， 不 求 Python 内 容 的 大 而 全 ， 但 求 够 用 和 编程 思想 的 训练 。 
在 学 生 具 备 了 Python 的 基础 以 后 ， 讲 授 了 人 工 智 能 的 基础 知识 ， 包 括 自然 语言 处 理 、 语 音 
识别 、 计 算 机 视觉 、 人 工 神经 网 络 等 内 容 。 与 此 同时 ， 我 们 还 开发 了 在 线 学 习 和 竞赛 平台 ， 
学 生 可 以 通过 教材 和 在 线 编程 平台 完成 课程 内 容 和 辅助 内 容 的 学 习 。 随 后 将 出 版 的 第 二 册 
为 《人 工 智能 实践 教程 : 机 器 人 篇 〈 青 少 版 ) 》， 主 要 讲解 人 工 智 能 在 我 们 自主 开发 的 机 
器 人 上 的 实现 ， 通 过 在 机 器 人 上 的 实现 ， 让 学 生 真 正 懂得 如 何 去 开 发 一 个 个 人 工 智 能 的 小 
案例 ， 同 时 我 们 为 学 生 提供 了 扩展 性 的 开发 案例 来 扩展 他 们 的 思维 ， 唯 有 思维 能 力 的 提高 
才能 促进 创造 力 的 提升 。 综 合 案例 需 通过 团队 的 配合 和 合作 完成 ， 将 极 大 地 促进 学 生 的 学 
习 和 能 力 的 提高 。 

本 册 教 材 共 18 章 ， 分 为 2 篇 ， 第 1 篇 为 人 工 智 能 编程 基础 篇 ， 选 择 Python 作为 入 门 
人 工 智能 的 基本 语言 ， 在 这 一 部 分 中 ， 我 们 紧密 结合 人 工 智 能 和 高 中 教育 的 学 科 特 点 ， 力 
争 融 知识 、 趣 味 、 能 力 培 养 为 一 体 。 结 合 高 中 教育 的 学 科 特 点 ， 学 生 在 学 习 的 过 程 中 就 可 
以 解决 数学 等 学 科 中 出 现 的 问题 和 难点 ， 有 利于 提高 学 生 的 学 科学 习 和 科学 素养 。 第 2 篇 
为 人 工 智 能 篇 ， 该 部 分 中 我 们 对 人 工 智 能 涉及 的 诸多 要 素 如 机 器 学 习 算法 、 自 然 语 言 处 理 、 
语音 识别 、 视 觉 识 别 、 神 经 网 络 等 内 容 进 行 讲解 ， 讲 解 的 方式 是 通过 Python 的 实践 进行 讲 
授 ， 每 个 要 素 和 内 容 的 呈现 过 程 包括 基础 知识 、 代 码 实 现 等 ， 限 于 篇 幅 ， 我 们 不 可 能 把 所 
有 的 人 工 智能 的 内 容 都 呈现 给 大 家 ， 但 是 期 待 这 些 基础 内 容 可 以 帮助 大 家 打下 基础 ， 以 便 
未 来 进一步 扩展 学 习 。 

致 教师 : 在 编写 教材 之 初 ， 我 们 深 知 对 于 高 中 的 信息 技术 课 教师 而 言 ， 学 习 一 门 新 
的 编程 语言 并 将 它 传授 给 学 生 是 一 件 成 本 较 高 的 事情 ， 但 是 时 代 在 进步 ， 社 会 在 发 展 ， 
培养 学 生 的 创新 能 力 已 经 成 为 我 国 经 济 社会 发 展 的 重要 一 环 。 国 家 层面 的 政策 必 将 导向 
到 考核 学 生 的 思维 、 创 新 方向 上 来 ， 已 经 有 诸多 发 达 省 份 的 中 高 考 开始 考查 Python 编程 
的 内 容 ， 在 全 国 铺 开 只 是 时 间 问 题 而 已 。 因 此 ， 我 们 期 竺 每 位 老师 抓 住 机 会 ， 和 我 们 一 
起 迎接 挑战 。 

致 学 生 : Python 是 目前 通用 的 编程 语言 中 相对 简单 易学 的 ， 而 且 支 持 它 的 第 三 方 功能 
库 特别 丰富 ， 项 目 开发 速度 非常 快 ， 所 以 广泛 应 用 于 各 个 领域 。 一 旦 学 会 了 ， 你 的 思考 和 
运用 方式 会 让 人 刮目相看 ! 期 待 同 学 们 在 快乐 中 学 到 真正 的 编程 知识 ， 还 能 把 编程 发 展 为 
特长 ， 在 以 后 的 工作 和 学 习 中 都 能 成 为 你 最 最 实在 的 加 分 项 。 

教学 建议 : 首先 ， 如 果 把 本 书 作为 高 中 的 编程 基础 教材 ， 可 以 学 习 第 1 篇 的 内 容 ， 即 
第 1 一 12 章 ， 这 部 分 内 容 从 Python 的 基础 讲 起 ， 融 合 高 中 的 数学 、 物 理 、 化 学 等 学 科 知识 ， 
结合 在 线 的 学 习 平 台 ， 学 生 可 以 获得 很 好 的 编程 素养 训练 。 其 次 ， 学 有 余力 的 学 校 和 学 生 ， 
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可 以 安排 和 人工 智 能 部 分 的 学 习 和 机 器 人 的 实践 案例 ， 真 正体 会 到 人 工 智能 带 给 我 们 的 直观 体 
验 ， 在 一 个 立体 的 学 习 环 境 中 达到 科学 、 技 术 、 工 程 等 知识 的 融合 ， 对 于 学 生 的 未 来 发 展 具 
有 诸多 好 处 ， 对 于 建设 特色 驱动 的 学 校 也 是 重要 的 切入 点 。 

教学 资源 : 本 套 教 材 包 括 《 人 工 智能 基础 教程 : Python 篇 〈 青 少 版 ) 》《 人 工 智能 实 
践 教程 : 机 器 人 篇 〈 青 少 版 ) 》。 哈 工 智 诚 在 线 编程 云 平台 不 仅 提供 了 在 线 编程 、 综 合 案 
例 实践 功能 ， 还 包括 了 视频 课程 讲解 、 虚 拟 仿真 实验 室 等 。 

本 套 从 书 的 编写 由 哈工大 机 器 人 〔 合 肥 〉 国际 创新 研究 院 统一 组 织 ， 本 册 教 材 由 丁 亮 
教授 、 姜 春 茂 教授 担任 主编 ， 曲 明成 博士 、 刘 鹏 飞 副 研究 员 和 夏 科 宕 副 研究 员 担任 副 主编 ; 
其 中 丁 亮 教授 编写 了 第 17、18 章 ， 姜 春 茂 教授 编写 了 第 1 一 12 章 ， 曲 明成 博士 编写 了 第 
13、14 章 ， 刘 鹏 飞 副 研 究 员 和 夏 科 害 副 研 究 员 分 别 编写 了 15、16 章 。 在 此 还 要 特别 感谢 
于 振 中 老师 对 本 书 编写 的 帮助 和 支持 。 在 编写 过 程 中 , 众多 的 研究 生 也 付出 了 辛勤 的 劳动 ， 
他 们 是 吴 俊 伟 、 栾 浩 、 王 凯旋 、 徐 晓 霞 、 张 彤 等 ， 在 此 对 他 们 表示 感谢 。 

由 于 时 间 紧 张 ， 错 误 在 所 难免 ， 期待 各 位 读者 提出 宝贵 意见 和 建议 。 
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人 工 智能 ( Artificial Intelligence，AI ) 是 计算 机 科学 的 一 个 重要 分 支 ， 它 希 
望 生产 出 一 种 类 似 于 人 类 智能 性 质 的 智能 机 器 。 人 工 智 能 的 研究 范围 很 广 ， 包 
括 机 器 人 、 语 言 识别 、 图 像 识别 、 自 然 语言 处 理 等 众多 领域 。 在 日 常生 活 中 ， 
人 工 智能 已 得 到 广泛 应 用 ， 如 智能 音箱 、 无 人 驾驶 汽车 等 。 

Python 语言 称 得 上 是 最 适合 人 工 智能 开发 的 编程 语言 ， 主 要 原因 是 ， 它 简 
单 易 用 ， 可 以 无 颖 地 与 数据 结构 和 众多 的 人 工 智 能 算法 一 起 使 用 。 

让 我 们 一 起 在 Python 的 世界 里 币 律 吧 ! 
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通过 本 章 ， 我 们 将 在 学 习 Python 的 道路 上 迈 出 第 一 步 。 本 章 将 要 学 习 : 
Python 的 历史 以 及 优 缺 点 。 

完成 Python 的 开发 环境 搭建 。 

Python 的 程序 解释 机 制 。 

编写 并 运行 第 一 个 Python 程序 。 

Python 基础 。 


DOODOO DO 


1.1 Python 的 前 世 今生 


Python 是 一 种 面向 对 象 的 解释 型 计算 机 程序 设计 语言 , 由 荷兰 人 Guido van Rossum( 吉 
多 。 范 罗 苏 姆 )》 于 1989 年 发 明 ， 它 的 第 一 个 发 行 版 于 1991 年 发 布 。 

1989 年 圣诞 节 期 间 ， 在 阿姆斯特丹 ，Guido van Rossum 为 了 打发 圣诞 节 的 无 聊 决心 要 
开发 一 种 新 的 编程 语言 ， 因 为 他 是 Monty Python 喜剧 团体 的 爱好 者 ， 所 以 选用 了 Python 
作为 该 语言 的 名 字 。 

就 这 样 ，Python 在 Guido van Rossum 手中 诞生 了 。 由 于 它 的 简洁 性 、 易 读 性 以 及 可 扩 
展 性 ，Python 已 经 成 为 最 受 欢迎 的 程序 设计 语言 之 一 ， 一 些 知名 大 学 早已 采用 Python 来 教 
授 程序 设计 课程 。 众 多 开源 的 科学 计算 软件 包 都 提供 了 Python 的 调用 接口 。 

1991 年 ， 第 一 个 由 C 语言 实现 的 Python 编译 器 诞生 。 

1994 年 ，Python 1.0 版 本 发 布 。 

2000 年 ，Python 2.0 版 本 发 布 ， 现 有 的 Python 语言 框架 已 经 完成 。 

2010 年 ，Python 2.7 版 本 发 布 ， 这 是 Python 2.X 的 最 后 一 个 版 本 。 

2008 年 12 月 3 日 ，Python 3.0 版 本 发 布 ， 对 比 Python 2.X 版 本 做 出 了 较 大 改动 。 

2016 年 12 月 23 日 ，Python 3.6 版 本 发 布 。 

2018 年 3 月 ，Python 宣布 Python 2.7 版 本 将 于 2020 年 1 月 1 日 终止 支持 。 不 过 请 放 
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心 ， 本 书 使 用 的 案例 都 是 以 Python 3X 版 本 编写 的 。 
1.2 Python 的 优势 


随 着 计算 机 技术 的 不 断 发 展 ， 目 前 有 众多 可 选 的 计算 机 语言 。 作 为 入 门 者 ， 如 何 选择 
一 门 适合 自己 的 编程 语言 是 至 关 重 要 的 。 相 对 来 说 ,Python 对 于 初学 者 具有 以 下 几 点 优势 : 

(1) 软件 质量 。Python 注重 可 读 性 、 一 致 性 和 软件 质量 ， 这 使 得 它 的 代码 易于 理解 。 
同时 ，Python 支持 软件 开发 的 高 级 重用 机 制 。 

(2) 提高 开发 效率 。 相 对 于 很 多 编译 类 型 语言 ，Python 的 开发 效率 会 提高 很 多 ， 因 为 
它 录入 更 少 的 代码 、 调 试 更 少 的 代码 以 及 维护 更 少 的 代码 。 

(3) 组 件 集成 。Python 有 着 灵活 的 集成 机 制 ， 这 使 得 它 可 以 调用 C 或 者 C++ 的 库 或 
是 被 C/C++ 调用 ， 也 可 以 和 Java 组 件 集成 。Python 绝 不 是 一 个 独立 的 工具 。 

(4) 易于 学 习 。Python 的 易 用 性 和 强大 的 内 置 工具 让 编程 变 成 了 一 种 乐趣 ,在 本 书 的 
学 习 中 你 将 会 体会 到 。 


计算 机 语言 


计算 机 语言 (Computer Language ) 指 用 于 人 与 计算 机 之 间 通 信 的 语言 ， 它 可 以 分 为 机 
器 语言 、 汇 编 语 言 、 高 级 语言 三 大 类 。 计 算 机 语言 是 人 与 计算 机 之 间 传 递 信息 的 媒介 。 为 
了 使 计算 机 顺利 地 进行 各 种 工作 ， 需 要 有 一 套用 以 编写 计算 机 程序 的 数字 、 字 符 和 语法 规 
则 ， 由 这 些 字 符 和 语法 规则 组 成 计算 机 的 各 种 指令 ( 或 各 种 语句 ) 。 这 些 就 是 计算 机 能 接 
受 的 语言 。 

20 世纪 40 年 代 当 计算 机 刚刚 问世 的 时 候 ， 程 序 员 必须 手动 控制 计算 机 。 当 时 的 计算 
机 十 分 昂贵 ,唯一 想到 利用 程序 设计 语言 来 解决 问题 的 人 是 德国 工程 师 Konrad Zuse ( 康 拉 
德 。 楚 泽 )。 不 久 后 ,计算 机 的 价格 大 幅度 下 降 ， 而 计算 机 程序 也 越 来 越 复杂 。 也 就 是 说 ， 
开发 时 间 已 经 远 比 运行 时 间 来 得 宝贵 。 于 是 ， 新 的 集成 、 可 视 化 的 开发 环境 越 来 越 流 行 。 
它们 减少 了 所 付出 的 时 间 、 人 金钱 ( 以 及 脑 细胞 ) 。 只 要 轻 敲 几 个 键 , 一 整 段 代码 就 可 以 使 
用 了 。 这 也 得 益 于 可 以 重用 的 程序 代码 库 。 随 着 C、Pascal、Fortran 等 结构 化 高 级 语言 的 
诞生 ， 使 程序 员 可 以 离开 机 器 层次 ， 在 更 抽象 的 层次 上 表达 意图 。 随 着 程序 规模 的 不 断 扩 


第 1 章 初 识 Python a 


大 ,在 60 年 代 末 期 爆发 了 软件 危机 , 在 当时 的 程序 设计 模型 中 都 无 法 克服 错误 随 着 代码 的 
扩大 而 级 数 般 地 扩大 ， 以 至 到 了 无 法 控制 的 地 步 ， 这 个 时 候 就 出 现 了 一 种 新 的 思考 程序 设 
计 方 式 和 程序 设计 模型 一 面向 对 象 程序 设计 ， 由 此 也 诞生 了 一 批 支持 此 技术 的 程序 设计 
语言 ， 如 Eiffel、C++、Java， 这 些 语言 都 以 新 的 观点 去 看 待 问 题 ， 即 问题 就 是 由 各 种 不 同 
属性 的 对 象 以 及 对 象 之 间 的 消息 传递 构成 ,面向 对 象 语言 由 此 必须 支持 新 的 程序 设计 技术 ， 
如 数据 隐藏 、 数 据 抽象 、 用 户 定义 类 型 、 继 承 、 多 态 等 。 


1.3 Python 的 缺陷 


前 面 介绍 了 很 多 Python 的 优点 ， 在 这 里 还 是 要 说 一 下 Python 的 缺陷 。 与 C/C++ 这 类 
的 编程 语言 相 比 ，Python 的 执行 速度 还 不 够 快 。 

现 如 今 , 即使 CPU 的 处 理 速度 很 快 ， 在 一 些 应 用 领域 仍 强调 程序 的 执行 速度 。 如 果 今 
后 涉及 这 些 领 域 的 话 ， 可 以 通过 分 离 部 分 需要 优化 速度 的 应 用 ,将 其 转换 为 编译 好 的 扩展 ， 
并 在 系统 中 使 用 Python 脚本 将 这 些 应 用 连接 起 来 。 当 然 ， 这 些 都 是 后 话 了 。 


1.4 Ubuntu 下 开发 环境 的 搭建 
本 节 要 讲 的 是 在 Ubuntu 16.04 下 搭建 开发 环境 , 在 这 里 介绍 两 种 方式 : 通过 Ubuntu 中 
自 带 的 apt-get 命令 安装 和 通过 PyEnv 安装 。 
1.4.1 通过 apt-get 命令 安装 


这 种 方式 非常 简便 ， 只 需 打 开 终 端 ， 输 入 如 下 命令 ， 再 按 Enter 键 。 
命令 : 
sudo apt-get update && sudo apt-get install python3 


1.4.2 ”通过 PyEnyv 安装 


PyEnv 是 一 个 简单 的 Python 版 本 管理 工具 , 它 的 前 身 是 Pythonbrew。 通 过 PyEnv 可 以 
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改变 全 局 的 Python 版 本 ， 安 装 、 管 理 多 种 不 同 的 Python 版 本 。 

PyEnv 的 安装 方式 也 很 简便 ， 一 般 有 两 种 安装 方法 : 一 种 是 通过 Git 命令 安装 ， 另 一 
种 是 直接 下 载 安装 。 

注意 : 

这 两 种 方法 都 是 在 终端 中 完成 的 。 在 进入 Ubuntu 系统 后 使 用 CtrlHAltHT 快捷 键 可 以 快 
速 打开 终端 。 

1. 通过 Git 命令 安装 PyEnv 

命令 : 


sudo apt-get install git 

git clone git://github.com/yyuu/pyenv.git .pyenv 

echo 'export PYENV_ ROOT="$HOME,/.pyenv" >> ~/.bashre 
echo 'export PATH="$PYENV_ROOT/bin:$PATH" >> ~/.bashrc 
echo 'eval "$(pyenv init -)" >> ~/.bashrc 

exec $SHELL -1 


分 析 : 

由 于 本 书 主要 讲 的 并 不 是 shell 语句 ,这 里 将 简单 地 介绍 这 个 过 程 ， 有 兴趣 的 读者 可 以 
查阅 资料 了 解 详情 。Git 是 一 个 开源 的 分 布 式 版 本 控制 系统 ， 它 用 于 敏捷 高 效 地 处 理 任何 或 
小 或 大 的 项 目 。 第 1 行 语句 就 是 将 Git 安装 到 Ubuntu 系统 中 。 第 2 行 及 其 后 续 的 语句 是 使 
用 Git 安装 PyEnv。 

2. 直接 下 载 安装 PyEnv 

命令 : 


curl-L https://raw.githubusercontent.com/yyuu/pyenv-installer/master/bin/pyenv-installer | bash 


分 析 : 

这 里 使 用 curl 命令 从 服务 器 上 下 载 数据 并 运行 安装 。 这 种 方法 在 使 用 时 ， 过 程 耗 时 可 
能 会 比较 长 。 

通过 上 述 两 种 方法 我 们 已 经 将 PyEnv 安装 到 系统 中 了 ， 接 下 来 ， 使 用 pyenv install -list 
命令 来 看 看 都 可 以 安装 哪些 Python 版 本 。 命 令 详 情 如 图 1.1 所 示 。 
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图 1.1 使 用 pyenv 命令 查看 可 安装 版 本 〈 截 图 中 仅 是 部 分 版 本 ) 
3. 安装 Python 
我 们 选用 Python 3.6.4， 但 是 在 安装 之 前 先 要 进行 一 些 前 序 工作 : 安装 依赖 。 
安装 依赖 ; 


1: sudo apt-get install libc6-dev gcc 
2: sudo apt-get install -y make build-essential libssl-dev zliblg-dev libbz2-dev libreadline-dev libsqlite3-dev 
weget curl llvm 


经 过 这 个 过 程 之 后 ， 就 可 以 安装 Python 3.6.4 了 。 

安装 Python 3.6.4: 

pyenv install 3.6.4 -V 

至 此 , 已 经 完成 了 安装 过 程 (过 程 可 能 会 有 些 缓慢 ) 。 可 以 使 用 环境 刷新 命令 更 新 一 下 。 
刷新 : 


1: pyenvrehas 
2: pyenv version 


接 下 来 , 就 可 以 很 便捷 地 使 用 PyEnv 管理 Python 版 本 了 。 由 于 Ubuntu 16.04 中 自 带 了 
Python 2.7.2， 所 以 在 使 用 时 ， 需 要 切换 一 下 。 具 体操 作 如 图 1.2 所 示 。 


图 1.2 使 用 pyenv global 3.6.4 命令 切换 版 本 
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完成 Python 的 安装 之 后 ， 再 选择 一 款 适 合 的 编译 器 ， 可 以 让 我 们 在 编写 程序 时 更 得 心 
应 手 。 

虽然 在 Ubuntu 中 可 以 用 Vim 或 者 Emacs， 但 是 为 了 将 学 习 的 重心 放 在 学 习 Python 而 
不 是 编辑 器 上 ,本 书 推荐 使 用 PyCharm 编译 器 进行 Python 语言 的 学 习 ， 下 面 将 介绍 该 编译 
器 的 安装 方法 。 

1.4.3 安装 PyCharm 


PyCharm 教育 版 是 一 款 非 常 适 合 初 学 者 学 习 Python 的 免费 开发 工具 ， 下 载 网 址 为 : 
https://www.jetbrains.com/pycharm-edu/。 

PyCharm 的 安装 如 下 。 

进入 下 载 网 址 页 面 ， 单 击 页 面 中 央 的 DOWNLOAD FREE 按钮 下 载 pycharm-edu-2018. 
1.3.tar.gz 压缩 文件 (或 者 是 下 载 当前 最 新 版 本 都 可 以 〉。 

下 载 完 成 后 , 进入 终端 并 使 用 cd 命令 切换 到 pycharm 压缩 包 所 在 路 径 ( 见 图 1.3 (a) ) ， 

并 用 下 面 的 命令 解压 。 

tar xfz pycharm-* .tar.gz 

解压 完成 之 后 ， 在 终端 继续 使 用 cd 命令 进入 到 解压 文件 夹 中 的 bin 文件 所 在 路 径 下 ， 
并 运行 ./pycharm.sh 命令 进行 安装 。 这 一 过 程 演示 如 图 1.3 (b) 所 示 。 


(a) 解压 文件 


Complete Installation 


Import PyCharm settings from: 
[Custom location. Config folder or installation home of the previous version: 


人 ®@ Donotimport settings 


(b) 安装 PyCharm 
图 1.3 ”PyCharm 的 安装 过 程 
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完成 上 述 步骤 之 后 ， 我 们 就 进入 了 PyCharm 的 设 定 界面 中 ， 这 里 你 可 以 根据 自己 的 喜 
好 设置 。 

完成 设 定 后 ， 我 们 来 一 起 创建 一 个 项 目 。 启 动 PyCharm， 单 击 界面 中 的 Create 
New Project 超 链接 ， 接 下 来 进入 创建 工程 界面 ， 在 Location 文本 框 中 可 以 选择 工程 
的 路 径 。 在 Location 下 面 的 Project Interpreter: New Virtualenv environment 前 面 有 一 
个 三 角 按 钮 ， 单 击 它 ， 就 可 以 在 Base interpreter 一 栏 中 选择 我 们 要 使 用 的 Python 版 
本 〈 见 图 1.4) 。 


New Project 


Location: | /home/try/PycharmProjects/test 贺 


vProject Interpreter: New Yirtualeny environment 


© New environment using 哆 Virtualenv 四 


Location: zhomeytryyPycharmProjectsy/testyvenv 田 
Base interpreter: | /usr/bin/python3.5 M 国 
口 Inherit global /usrybinypython3.5 


是 /usrybinypython2.7 
/usr/bin/python3 
CO) Existing interprete 是 /usr/bin/python2 


Make available 


图 1.4 创建 项 目 及 其 相关 设置 选择 


如 果 使 用 的 是 PyEnv 安装 的 Python 版 本 , 可 以 通过 pyenv versions 命令 ( 见 图 1.5 (a)】 
来 查看 都 安装 了 哪些 版 本 以 及 版 本 文件 的 路 径 。 我 们 通过 文件 的 路 径 来 找到 对 应 版 本 的 路 
径 〈 因 为 安装 版 本 的 路 径 和 设置 文件 的 路 径 都 在 pyenv 文件 夹 下 ) 。 有 具体 情况 如 图 1.5 (b) 
所 示 。 
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yenv versions 


/1home/Leo/1 .pyenv/ve 


(a) 查看 已 经 安装 的 版 本 


Location: [/home/leo/PycharmProjects/hellol [ 


™ Project Interpreter: New Virtualenv environment 
© Newenvironmentusing | 台 vitualenv 国 

加 Location: /home/leo/PycharmProjects/hello/venv |[*] 
WW Angular cu Baseinterpreter: 于 /home/leo/. pyenvversions/364/bin/python35 贺 | 
WW AngularJs 
目 Foundation 
目 HTML5 Boilerplate 
几 React App 〇 Existing interpreter 
3 Weck Native Interpreter: | <No interpreter> | | 
Twitter Bootstrap 
© Web Starter Kit 


口 Inherit global site-packages 
口 Make available to all projects 


EE [na 


(b) PyCharm 中 的 工程 设置 
图 1.5 创建 工程 及 其 设置 


1.5 Windows 下 开发 环境 的 搭建 


本 节 将 详细 介绍 Windows 下 开发 环境 的 搭建 。 相 比较 上 一 节 在 Ubuntu 下 开发 环境 的 
搭建 ，Windows 下 开发 环境 的 搭建 就 十 分 简单 了 。 


:| 


安装 Python 


首先 进入 官网 的 下 载 页 面 ， 网 址 为 https://www.python.org/downloads/， 并 单 击 页 面 中 
的 Download Python 3.6.5 按钮 下 载 安 装 程序 (在 写作 本 书 时 ， 最 新 版 本 是 3.6.5， 以 后 车 有 


更 新 可 下 载 最 新 版 。 也 可 以 在 Looking for a specific release? 中 找到 Python 3.6.5 版 本 过 


载 ) ， 如 图 1.6 所 示 。 


得 
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Python 


电 python ER 车 


About Downloads Docmentation Community SuccessStories News Events 


po 
Download the latest version for Windows AN | | 


单 击 下 载 当前 版 本 
的 Python 安装 程序 


Looking for a specific release? | 


Pythor 


sby verslon number 


图 1.6 下 载 Python 安装 程序 


完成 下 载 后 ， 找 到 下 载 的 文件 python-3.6.5.exe 并 双击 打开 。 安 装 程序 界面 如 图 1.7 
所 示 。 


内 pyhon365 G2bi Setip mm = 豆 


Install Python 3.6.5 (32-bit) J Advanced Options 
Seec Install Ne to nstal Pytran with aetaut sethngs. or cncose oa for a users 


Customize to enable or disable features 


DD Assodiate fles with Pytron requires the py aundhenl 


2 Install Now eate shoriosts or nstated apvicatons 
CVsereoVippDmaV ocarograme pthor\Pythor3e-12 更 Ada Python to environment varables 


HI precompile standard fbrary 
Telades IDLE, pp and documenlation 
Creates shoricuts and fle associadons Downlcad deougging symbols 


四 Downicad deoug binaries (reauires VS 2015 or later) 


3 Customize installation 


Chooss location and foetures Customize netal location 


puthén Epython\Python36-37\ [rowse | 
| | wn ss | 
l 
关山 这 目 是 广 先 入 渤 此 项 ， 让 安装 程序 字 奥 完成 后 单 击 Install 和 拉 僻 法理 站 入 
安装 界 备 ”完成 系统 中 的 Python 配置 按钮 开始 安装 
(a) 初始 安装 界面 (b) 选择 安装 地 址 


1.7 安装 过 程 
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安装 时 要 注意 的 事项 已 经 在 图 1.7 中 展示 ， 其 余 的 安装 过 程 直接 单 击 Next 按钮 即 可 ， 


直到 安装 完成 。 


1.5.2 安装 PyCharm 


首先 进入 PyCharm 下 载 页 面 ， 网 址 为 https://www.jetbrains.com/pycharm/， 我 们 选择 


PyCharm 的 开源 版 本 ， 这 是 免费 的 ， 有 具体 下 载 过 程 如 图 1.8 所 示 。 
Download PyCharm 


Wi) i 
Professional Community 
Full-featured IDE Lightweight IDE 

for Python & Web for Python & Scientific 
development development 


图 1.8 ”下载 PyCharm 免费 版 


Fee operaeuro 


下 载 完成 后 ， 双 击 下 载 的 文件 pycharm-community-2018.1.2.exe 开始 安装 ， 单 击 后 会 出 现 
如 图 1.9 所 示 的 安装 界面 ,我 们 可 以 一 直 单 击 Next 按钮 完成 安装 , 也 可 以 自 定义 安装 路 径 安 装 。 


Welcome to PyCharm Community 
Edition Setup 


Setup wl guide you through the instalation of PyCharm 
Community Editon. 


Itis recommended that you dose al other 
before 


图 1.9 PyCharm 的 安装 界面 


完成 PyCharm 的 安装 之 后 , 运行 PyCharm 会 出 现 选择 界面 风格 的 窗口 ， 完 成 选择 后 进 


入 如 图 1.10 所 示 的 创建 工程 界面 。 


第 1 章 初 识 Python 


PyCharm 


WW Creste New Project 
Ww open 
Check out from Version Control - 


图 1.10 创建 工程 


在 PyCharm 中 的 工程 表示 的 是 - 


。13 。 


-个 项 目 , 它 允 许 我 们 定义 一 个 或 多 个 Python 文件 。 在 


进入 编辑 界面 之 前 ， 先 配置 工程 ， 具 体 的 操作 如 图 1.11 所 示 。 
单 击 浏览 文件 目录 ， 
选择 工程 创建 位 置 


ul 一 EE 1 


Location [EAPyCharmProject\test 


» Project interpreter. New Vinualenv environment 
图 New environment using 苞 vVirtualen ~ 
Location: EAPyCharmproject\test\veny 河 
Bese interpreter | B DAPython\python.exe | “| 
口 Inherit global site-packages 


单 击 这 个 三 角 
按钮 选择 工程 口 Make available to all projects 
> Existing interpreter 
的 配置 项 vce, CT 


选择 Python 解 
释 器 ， 目 录 是 
上 一 步 Python 
的 安装 目录 


Create | Cancel 


完成 配置 之 后 单 击 Create 按 钮 创建 工程 


图 1.11 工程 配置 的 具体 操作 
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完成 工程 创建 之 后 我 们 再 向 工程 中 添加 Python 文件 用 于 程序 编写 ,过程 如 图 1.12 所 示 。 


国 test- [DAPython\test] - PyCharm 2017.1.2 


图 1.12 向 工程 中 添加 Python 文件 


至 此 ， 新 的 Python 文件 已 经 创建 ， 下 面 我 们 来 看 看 PyCharm 提供 的 开发 界面 ， 如 图 
1.13 所 示 。 


素 单 从 SN 工作 区 ， 用 于 当前 程序 代码 的 编写 


了 :1 安装 地 址 \pythonlpython. exe D:/Python/Test/test. py 
Hello, world! 


Process fini: sb exit code 0 
运行 结果 显示 区 ， 或 者 是 键盘 输入 内 容 显示 区 
1.13 ”PyCharm 开发 界面 
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1.13 中 为 了 演示 编码 效果 ， 添 加 了 一 条 print 语句 ， 它 的 具体 使 用 方法 在 后 文 会 
讲 到 。 


1.6 Python 编程 入 门 


接 下 来 我 们 将 进入 Python 编程 的 世界 ， 先 来 看 一 些 基 础 知识 。 
1.6.1 Hello world 


Hello world 是 很 多 程序 语言 运行 的 第 一 个 结果 ， 被 程序 员 戏 称 为 “经 典 世界 问候 语 ”。 

在 刚 安装 好 的 PyCharm 中 的 工作 区 输入 程序 1.1 所 示人 代码， 然后 单 击 右上 角 的 运行 按 
钮 =。 执行 该 代码 后 ， 会 在 运行 结果 显示 区 显示 执行 结果 Hello world。 

旺 序 1.1 输出 Hello world: 

1: print("Hello world") 

输出 : 


Hello world 


分 析 : 

通过 以 上 程序 会 发 现 ，Python 语言 的 编写 是 如 此 简单 ，print 函数 就 是 输出 函数 ， 我 们 
只 需要 将 要 输出 的 变量 或 内 容 放 入 函数 的 括号 中 即 可 , 这 里 我 们 将 Hello world 放 在 引号 中 
作为 一 个 字符 串 类 型 ， 最 后 输出 。 

经 过 上 述 解释 你 可 能 还 有 些 疑 惑 ， 不 过 没有 关系 ， 有 关 输入 /输出 、 函 数 、 字 符 串 等 知 
识 在 后 文 都 将 会 提 到 。 此 时 ，PyCharm 的 界面 如 图 1.14 所 示 。 


"16 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 ) 


File 
有 


性 1:Project 


hello [C:\hello] - ...\hello.py [hello] - PyCharm 一 
Edit View Navigate Code Refactor Run Tools VCS Window Help 
hello ) 网 hello.py 》 helov| p 


国 projecv 全 三 穴 一 | 渴 hellopy 
ets, 1 print ("Hello world”) 
> Ba venv library root 
访 hello.py 
> llll External Libraries 
Bo Scratches and Consoles 


图 1.14 Windows 下 的 PyCharm 界面 
学 习 了 Hello world 之 后 我 们 再 来 看 一 个 稍微 复杂 一 点 的 程序 。 
程序 1.2: 


[| #get your name 

2: name=input("What is your name?\n") 
3:  #print Hi+ your name 

4: print("Hi,", name) 


输出 : 

What is your name? 

Leo 

Hi, Leo 

分 析 : 

在 这 里 我 们 将 整个 程序 看 成 一 个 工作 区 , 每 行 语 旬 都 有 它 的 功能 ,程序 第 2 行 的 name 


是 该 工作 区 的 一 部 分 ， 它 存储 了 一 些 信息 并 且 是 可 以 被 更 改 的， 我 们 称 它 为 变量 ， 在 对 变 
量 命名 时 要 尽量 贴 合 变量 的 具体 使 用 含义 。 我 们 只 能 在 当前 工作 区 使 用 该 变量 ， 因 为 当前 
的 工作 区 是 它 的 命名 空间 ， 这 些 在 本 书后 文中 都 会 有 介绍 。 
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通过 程序 输出 我 们 可 以 看 出 , 程序 第 4 行 的 输出 语句 将 Hi 和 输入 内 容 输 出 , 这 是 因为 
第 2 行 中 使 用 input 接收 了 输入 的 名 字 并 存在 name 中 ,第 4 行 直 接 使 用 变量 名 就 可 以 调用 
变量 name 中 的 内 容 。 在 输入 时 ， 按 Enter 键 表示 输入 完成 。 

程序 1.2 看 似 有 4 行 ， 但 是 实际 上 工作 的 代码 只 有 第 2 行 和 第 4 行 ， 程 序 中 第 1 行 和 
第 3 行 中 的 内 容 是 以 “#” 号 开头 而 不 起 任何 作用 的 注释 ， 它 们 用 于 让 我 们 的 程序 更 易 懂 。 

如 果 上 述 内 容 让 你 有 点 困惑 ， 这 并 不 是 什么 问题 ， 因 为 才刚 开始 起 步 ， 后 面 将 会 详细 
介绍 有 关内 容 。 


1.6.2 Python 解释 器 


接 下 来 将 会 把 Python 的 解释 器 介绍 给 大 家 ， 这 样 在 总 体 上 将 对 Python 有 一 定 的 认识 。 

我 们 现在 对 于 Python 的 认识 还 只 是 作为 一 门 编程 语言 ， 从 程序 的 实现 来 看 ，Python 也 
是 一 个 解释 器 类 型 的 软件 包 。 那 么 ， 什 么 是 解释 器 ? 在 这 里 ， 解 释 器 是 一 种 让 其 他 程序 运 
行 起 来 的 程序 。 以 程序 1.1 为 例 ， 我 们 写 下 print("Hello world") 之 后 ，Python 解释 器 读 取 该 
语句 ， 按 照 其 中 的 命令 执行 ， 得 出 结果 。 也 就 是 说 ， 解 释 器 是 夹 在 代码 和 计算 机 硬件 之 问 
的 软件 逻辑 层 。 根 据 选 用 的 Python 版 本 ， 解 释 器 可 以 是 C 程序 实现 ， 也 可 以 是 Java 程序 
实现 。 在 这 里 必须 明白 的 是 我 们 所 编写 的 Python 代码 必须 在 解释 器 中 运行 。 有 关 解 释 型 语 
言 和 编译 型 语言 的 区 别 ， 如 表 1.1 所 示 。 


表 1.1 解释 型 语言 和 编译 型 语言 的 区 别 


解释 型 
执行 方式 类 似 于 我 们 日 常生 活 中 的 “ 同 声 翻译 ”， 
应 用 程序 源 代码 一 边 由 相应 语言 的 解释 器 “翻译 ” 
成 目标 代码 〈 机 器 语言 ) ， 一 边 执行 ， 因 此 效率 比 
较 低 ， 而 且 不 能 生成 可 独立 执行 的 可 执行 文件 ， 应 
用 程序 不 能 脱离 其 解释 器 ， 但 这 种 方式 比较 灵活 ， 
可 以 动态 地 调整 、 修 改 应 用 程序 。 我 们 在 本 书 中 学 
习 的 Python 属于 解释 型 语言 


编译 型 
编译 是 指 在 应 用 源 程序 执行 之 前 ， 就 将 程序 源 代码 
“翻译 ”成 目标 代码 〈 机 器 语言 ) ， 因 此 其 目标 程序 
可 以 脱离 其 语言 环境 独立 执行 ， 使 用 比较 方便 、 效 率 
较 高 。 但 应 用 程序 一 旦 需要 修改 , 必须 先 修改 源 代码 ， 
再 重新 编译 生成 新 的 目标 文件 (*.OBJ) 才能 执行 ， 
只 有 目标 文件 而 没有 源 代码 ， 修 改 很 不 方便 。 如 
CI/C++、jJava 等 都 是 编译 型 语言 


1.6.3 执行 Python 程序 


这 个 问题 作为 Python 解释 器 的 延伸 ， 请 大 家 认真 阅读 并 仔细 理解 下 面 的 内 容 ， 这 会 建 
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立 起 你 对 Python 的 整体 认识 。 我 们 从 程序 编写 人 员 和 Python 解释 器 两 个 角度 来 分 别 介绍 。 
还 是 以 程序 1.1 这 个 简单 的 程序 为 例 ， 作 为 一 个 程序 开发 者 ， 一 个 Python 程序 仅 是 一 个 

包含 Python 语句 的 文本 文件 ， 程 序 1.1 对 应 的 正 是 hellopy 文件 。 对 于 这 个 文件 ， 我 们 只 需 

要 告诉 Python 从 头 到 尾 执行 文件 中 的 语句 ， 也 就 是 说 ， 把 我 们 的 逻辑 使 用 Python 语句 表达 

出 来 即 可 ， 剩 下 的 只 需要 将 其 交 给 Python， 也 就 是 之 前 说 的 在 Python 解释 器 中 运行 代码 。 
那么 作为 Python， 它 是 如 何 看 待 这 个 问题 的 呢 ? 

Python 接收 到 我 们 的 程序 之 后 ， 将 其 编译 成 字 节 码 ， 之 后 再 将 其 转发 到 “虚拟 机 ”中 。 
下 面 ， 我 们 再 详细 分 析 一 下 上 述 步骤 。 编 译 其 实 是 一 个 简单 的 翻译 步骤 ， 它 把 每 一 条 语句 
(就 像 程序 1.1 中 的 print("Hello world")) 翻译 成 一 组 字 节 码 指令 。 完 成 后 ， 字 节 码 发 送 到 
Python 虚拟 机 〈Python Virtual Machine，PVM) 上 执行 。 而 对 于 PVM， 我 们 可 以 理解 为 一 
个 迭代 运行 字 节 码 指令 的 大 循环 ， 一 个 接 一 个 操作 ， 它 是 实际 运行 脚本 的 组 件 。 执 行 的 图 
解 如 图 1.15 所 示 。 


将 程序 转 为 字 节 码 


完成 执行 后 翻译 下 一 条 语句 ， 
Phython 虚 拟 机 直到 所 有 语句 都 执行 完成 


图 1.15 Python 语句 执行 过 程 


1.6.4 “Python 基础 
我 们 已 经 通过 执行 程序 1.1， 输 出 了 Hello world。 但 这 仅仅 是 Python 编程 的 一 个 开始 ， 
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下 面 介 绍 Python 编程 的 一 些 基础 知识 ， 为 以 后 的 编程 打下 基础 。 
1. 注释 
在 “#?” 号 右边 的 文字 并 不 影响 程序 的 执行 结果 ， 它 主要 是 为 了 解释 语句 的 功能 ， 是 写 
给 程序 的 读者 看 的 笔记 。 不 要 小 看 这 个 功能 ， 它 会 让 程序 的 读者 更 好 地 理解 代码 语句 。 
例如 : 
print(Hello world) # 注 意 到 print 是 一 个 输出 函数 


2. 字面 常量 

当 使 用 字面 常量 时 ， 我 们 用 的 就 是 它 字面 意义 上 的 值 或 是 内 容 。 例 如 ，97、5.29 这 样 的 
数字 或 是 Hello world 这 样 的 文本 。 它 们 的 值 都 是 不 能 被 改变 的 ， 因 此 它们 被 称 为 字面 常量 。 

3. 数字 

在 Python 中 ， 数 字 主要 分 为 两 种 : 整数 和 浮 点 数 。 

整数 大 家 都 知道 ， 如 78。 而 对 于 浮 点 数 (Float Point Numbers， 简写 floats) ， 则 有 5.29 
或 是 78.2E-4 (E 表示 10 的 宗 ， 这 种 表示 对 应 78.2*10^-4) 这 两 种 表示 方法 。 

4. 字符 串 

字符 串 是 字符 的 序列 ， 字 符 串 也 称 为 String。 在 这 里 多 提 一 句 ， 几 乎 所 有 我 们 编写 的 
Python 程序 都 会 用 到 字符 串 。 

(1) 声明 字符 串 

单 引 号 。 我 们 用 单 引 号 来 指定 字符 串 ， 如 Tam a string' 或 者 'this is a string' 这 种 。 引 号 中 
的 内 容 会 按 原 样 保留 。 

双 引 号 。 也许 你 足够 细心 已 经 发 现 上 面 Tam a string' 中 没 用 Tm 的 缩写 , 为 什么 ? 没 错 ， 
因为 外 面 是 单 引 号 ， 如 果 再 用 缩写 的 话 ， 解 释 器 会 产生 符号 识别 错误 。 我 们 使 用 双 引 号 来 
避免 这 种 情况 ， 如 "Tm a string" 这 样 做 就 完全 可 以 。 它 的 工作 机 制 同 单 引 号 一 样 。 

三 引号 。 三 引号 是 使 用 "或 "来 指定 多 行 字符 串 , 我 们 可 以 在 三 引号 之 间 自 由 地 使 用 单 
引号 和 双 引 号 。 三 引号 也 可 以 用 来 做 多 行 注释 ， 需 要 注意 的 是 ， 必 须 成 对 使 用 。 

例如 : 


"This's the first line. 
Second. 
Third "end". 
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注意 : 

一 旦 指定 了 字符 串 ， 我 们 就 不 能 再 改变 它 。 

(2) 字符 串 的 使 用 

构建 字符 串 。 有 时 我 们 要 从 其 他 信息 中 构建 字符 串 。 推 荐 使 用 format 方法 来 构建 ， 具 
体 做 法 会 在 后 文中 讲解 。 

转 义 序列 。 前 面 在 介绍 双 引 号 时 提 到 缩写 的 情况 若 还 要 使 用 单 引号 会 报错 ， 这 里 我 们 
提出 问题 : 为 什么 报错 ? 这 是 因为 使 用 单 引 号 在 写 Tm 时 ， 重 复 的 单 引 号 会 让 Python 对 于 
何 处 是 字符 串 的 开始 、 何 处 是 结束 感到 困惑 。 所 以 ， 我 们 必须 指定 这 个 单 引 号 不 代表 字符 
串 的 结尾 。 这 就 是 转 义 序列 的 作用 。 还 是 缩写 那个 例子 ， 我 们 可 以 通过 “\” 来 定义 单 引 号 ， 
对 应 字符 串 为 TWm a string'。 

如 果 想 要 指定 一 串 新 行 字符 串 该 如 何 操作 ?当然 了 ， 我 们 可 以 用 之 前 提 到 的 三 引号 。 
或 者 ， 使 用 表示 新 的 一 行 的 转 义 序列 “\n” 来 表示 新 的 一 行 。 例 如 ， 下 面 这 行 字 符 串 : 

'This is the first linen Second line' 

还 有 许多 转 义 序列 ， 在 今后 的 程序 中 遇 到 时 再 详细 介绍 。 

5. 标准 数据 类 型 

变量 可 以 将 各 种 形式 的 值 保存 为 不 同 的 数据 类 型 。 接 下 来 先 来 介绍 Python 中 的 标准 数 
据 类 型 。Python 中 支持 5 种 标准 的 数据 类 型 ， 数字、 字符 串 、 列 表 、 元 组 和 字典 。 前 面 讲 
了 数字 和 字符 串 ， 剩 下 的 3 种 我 们 以 后 再 细 谈 。 

6. 运算 符 

下 面 来 详细 谈 谈 运算 符 ， 它 在 实际 编程 中 是 很 常用 的 。 先 举 个 简单 的 例子 S+9=14， 这 
个 式 子 对 我 们 早已 不 是 什么 难题 ， 但 是 通过 它 来 引出 : 式 子 中 的 “+” 称 为 运算 符 ，4 和 5 
称 为 操作 数 ， 是 不 是 和 笔算 时 很 相似 ? 

Python 中 有 很 多 运算 符 ， 这 里 先 介 绍 算术 、 比 较 、 逻 辑 以 及 三 元 运算 符 。 

(1) 算术 运算 符 。 算 术 运 算 符 会 根据 运算 符 做 出 相应 操作 并 返回 结果 ， 具 体 如 表 1.2 
所 示 。 
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表 1.2 算术 运算 符 


40+21=61 


两 个 操作 数 相 加 


一 两 个 操作 数 相 减 5 12=73 
| 连 个 操作 数 相 乘 9*3=27 

/ | 两 个 操作 数 相 除 9/13=3 
| 返回 除法 的 余数 10%3=1 


10**3 = 1000 


(2) 比较 运算 符 。 在 详细 列 出 比较 运算 符 之 前 ， 先 提示 一 下 ， 就 像 算数 运算 符 会 
结果 一 样 ， 比 较 运 算 符 会 返回 True/False〈 或 是 返回 1/0，1 表示 真 ，0 表示 假 。 这 分 别 与 
True/False 等 价 ) 作为 比较 结果 。 比 较 运 算 符 具体 如 表 1.3 所 示 。 


表 1.3 比较 运算 符 


大 于 等 于 a>=b (返回 Tme) 
小 于 等 于 a<=b (返回 False) 


(3) 逻辑 运算 符 。Python 的 逻辑 运算 符 语法 比较 简单 明了 ， 和 高 中 的 数学 教材 中 人 逻辑 
部 分 的 内 容 是 相同 的 ， 具 体 如 表 1.4 所 示 。 
表 1.4 Te 


符 例 了 (a=30,b=15) 


“与 7 
布 和 i x andy 返回 False a andb (返回 15) 


ue 否则 返回 y 的 计算 值 
布尔 “或 ”， 如 果 x 是 非 0， 返 回 x 的 值 ， 否 则 返 后 
or | Xory 回 y 的 计算 值 | (返回 30) 
not notx 布尔 “中 ”。 各 困 交 为 Toes 巡回 alses 如果 not(a and b)( 返 回 False) 


为 False， 返 回 Tme 
(4) 三 元 运算 符 。Python 中 唯一 的 一 个 三 元 运算 符 如 表 1.5 所 示 。 


.22 。 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 》 


表 1.5 三 元 运算 符 
表达 式 描述 例子 


为 True 时 的 结果 寺 判 定 条 件 | 1 过 5>3 else 0 〈 输 出 1) 
else 为 False 时 的 结果 


on_True if expression else on_false 


田 
心 石 : 


print(5>=3 if3 and not 7 else 1) 这 条 语句 会 输出 什么 ? 
1.7 变量 及 其 赋值 


上 文中 提 到 ， 数 字 、 字 符 串 都 是 用 它们 字面 意义 上 的 值 或 是 内 容 ， 这 叫 作 字 面 常量 。 
但 是 如 果 一 直 使 用 字面 常量 会 让 人 感到 过 于 死板 ， 更 不 足以 应 对 复杂 的 情况 。 我 们 要 做 的 
是 操作 所 存储 的 信息 ， 这 时 便 需 要 引入 变量 。 就 像 这 个 名 字 一 样 ， 变 量 的 值 是 可 以 变化 的 ， 
Python 允许 我 们 用 变量 来 存储 任何 东西 。 因 为 要 操控 它 ， 所 以 我 们 要 为 它们 命名 并 通过 这 
个 名 字 访 问 变量 。 

在 Python 中 变量 可 以 存储 各 种 形式 的 值 并 保存 为 不 同 的 数据 类 型 ( 若 你 之 前 接触 过 
C/C++ 等 其 他 程序 设计 语言 ， 在 这 里 注意 了 ，Python 中 不 需要 变量 声明 ) 。 

在 Python 中 , 每 个 变量 在 使 用 前 都 必须 赋值 。 变量 赋值 之 后 会 被 自动 创建 。 在 程序 中 ， 
我 们 使 用 等 号 来 给 变量 赋值 。 等 号 左边 是 变量 名 ， 右 边 是 存储 在 变量 中 的 值 。 例 如 : 


name = "Leo" 


这 便 是 将 字符 串 "Leo" 赋 值 给 name 变量 。 
1.8 输入 与 输出 
本 节 将 介绍 一 下 输入 与 输出 ， 这 里 只 是 介绍 在 PyCharm 的 运行 结果 界面 中 的 输入 与 输 


出 ， 有 关于 涉及 文件 部 分 的 输入 与 输出 会 在 后 文中 介绍 。 下 面 先 看 看 输入 与 输出 的 流程 。 
带 有 输入 与 输出 的 程序 执行 过 程 如 图 1.16 所 示 。 
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数据 输入 一 =” 处理 


图 1.16 带 有 输入 与 输出 的 程序 执行 过 程 
1.8.1 输出 


本 章程 序 1.1 用 一 个 print 函数 输出 Hello world， 在 tr 不 知 
道 你 有 没有 发 现 ，print 函数 总 是 会 以 一 个 不 可 见 的 “新 一 行 ” 字 符 〈m) 结尾 ， 因 此 重复 
调用 print 将 会 在 相互 独立 的 一 行 中 分 别 打 印 。 为 了 防止 Python 中 的 sit 函数 
可 以 通过 end 指定 除 换 行 以 外 的 其 他 结尾 。 例 如 ， 可 以 通过 end 指定 以 空白 结尾 


print('a', end=") 
print('b', end=") 


输出 : 
ab 


1.8.2 输入 


对 应 输出 ，Python 也 提供 了 一 种 输入 机 制 ， 也 就 是 input 函数 ， 它 可 以 接收 我 们 从 键盘 
输入 的 内 容 ， 把 值 存 入 变量 中 。 另 外 ，input 函数 的 参数 可 以 设置 为 当 用 户 进行 输入 之 前 要 
显示 的 信息 ， 如 input("please input some num.") 这 种 形式 。 

且 用 户 按 下 Enter 键 ， 表 示 输 入 完成 并 退出 函数 。 

注意 : 

程序 接收 到 输入 的 内 容 是 字符 型 的 。 

下 面 使 用 一 个 程序 来 熟悉 一 下 我 们 学 过 的 一 些 语法 。 这 是 一 个 编程 实现 简单 计算 器 的 
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程序 ， 程 序 接收 两 个 操作 数 和 一 个 操作 符 并 将 计算 结果 输出 。 
程序 1.3 简单 的 计算 器 : 


x = int(input("please input the first operand: ")) 
y= int(input("please input the second operand: ")) 
character = input("please input the instraction character: ") 


result = X+y if character 一 "+" else None 
Tesult = x-y if character 一 "-" else result 
result = x*y if character == "*" else result 
result = x/y if character 一 "/" else result 


me 


rn 


0: print("the result is : {0}".format(result)) 


输出 : 


please input the first operand: 9 

please input the second operand: 5 
please input the instraction character: / 
the resultis : 1.8 


分 析 : 

首先 ， 程序 1.3 仅仅 用 于 演示 ， 它 是 一 个 很 不 完善 的 程序 ， 如 果 你 的 操作 数 输入 不 是 
数字 的 话 程序 将 会 崩溃 。 

程序 前 3 行 用 于 接收 用 户 的 输入 ， 每 次 输入 完成 按 Enter 键 结束 和 输入， 输出 前 3 行为 用 户 
从 键盘 输入 要 运算 的 数值 ， 输 入 的 数值 字体 为 斜体 ， 如 程序 1.3 中 的 输出 结果 所 示 。 由 于 操作 
数 是 整 型 ,而 input 函数 对 接收 输入 内 容 返回 的 是 字符 串 类 型 ， 因 此 我 们 用 一 个 int 函数 将 其 类 
型 转换 成 整 型 。 程序 的 5~8 行使 用 了 三 元 运算 符 来 判断 操作 符 并 选 出 对 应 操作 符 的 具体 操作 。 

最 后 ， 注 意 第 10 行 的 输出 语句 ， 这 就 是 我 们 上 文中 提 到 的 使 用 format 方法 来 从 其 他 
信息 中 构建 字符 串 。 在 这 个 字符 串 中 的 {0} 将 会 被 format 的 第 一 个 参数 代替 。 若 是 有 两 个 参 
数 如 何 做 呢 ? 例如 ， 在 程序 输出 结果 中 我 们 要 输出 操作 数 x，y: 

print("the operand is {0} and {1}".format(x, y)) 


注意 : 
使 用 format 方法 明了 而 且 不 容易 出 错 , 但 是 一 定 记 住 Python 是 从 0 开始 计数 ， 即 索引 
中 的 第 一 位 是 0， 第 二 位 是 1， 以 此 类 推 。 
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警告 : 
缩 进 (各行 开 头 的 空白 区 ,用 4 个 空格 表示 ) 在 Python 中 非常 重要 ， 它 用 于 确定 语句 
的 分 组 。 放 置 在 一 起 的 语句 必须 拥有 相同 的 缩 进 。 每 一 组 这 样 的 语句 被 称 为 “ 块 ”。 在 本 
书 的 后 文中 会 了 解 块 这 一 概念 的 重要 性 。 如 程序 1.3 的 前 3 行 如 果 写 成 : 
1: x=int(input("please input the first operand: ")) 


y= int(input("please input the second operand: ")) 
3: character = input("please input the instraction character: ") 


这 时 程序 会 报错 : 
y= int(input("please input the second operand: ")) 
入 


IndentationError: unexpected indent 
Python 指出 的 错误 信息 告诉 我 们 这 个 程序 的 语法 是 无 效 的 。 有 关 使 用 新 块 的 情况 后 文 
会 提 到 。 如 果 我 们 使 用 PyCharm 编写 程序 的 话 ， 它 会 自动 处 理 缩 进 。 


1.9 趣味 练习 


之 前 的 学 习 都 是 先 介绍 知识 点 ， 再 使 用 例题 强化 对 知识 点 的 认 知 ， 总 体 风 格 偏向 于 严 
肃 的 课堂 风 ， 但 是 在 本 节 以 及 后 续 章 中 的 “趣味 练习 ”会 让 我 们 放松 ， 慢 慢 体 会 并 尽 可 能 
地 享受 编写 程序 过 程 中 的 乐趣 。 

接 下 来 使 用 Python 来 模拟 一 个 我 们 与 机 器 的 交互 ， 先 来 看 程序 1.4。 

程序 1.4: 


l: name= input("Whatis your name?") 

2: age= input("How old are you?") 

3: sex= input("Whatis your sex?") 

4: print("Now I know you,{0},{1} years old {2}. \n".format(name, age, sex)) 
5: print("Thank you for reading this book.") 

输出 : 

What is your name?Leo 

How old are you?18 


What is your sex?boy 
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Now I know youLeo,18 years old boy. 


Thank you for reading this book. 


点 睛 : 

学 习 完 本 章 前 面 的 内 容 再 来 看 程序 1.4 是 不 是 有 一 种 水 到 渠 成 的 感觉 ， 在 这 里 只 强调 
一 个 地 方 ， 在 使 用 format 构造 字符 囊 时 如 果 只 有 一 个 值 ， 在 引号 中 可 以 直接 使 用 们 而 不 必 
使 用 {0} 这 种 形式 。 


1.10 总 结 


在 本 章 中 ， 我 们 学 习 了 如 何在 Ubuntu 和 Windows 下 搭建 Python 的 开发 环境 ，Python 入 
门 以 及 如 何 编写 和 执行 第 一 个 Python 程序 。 本 章 还 介绍 了 Python 的 发 展 历 程 ，Python 语言 的 
优 缺 点 ， 以 及 Python 内 部 的 解释 机 制 。 在 接 下 来 的 章 中 我 们 会 深入 学 习 Python 的 具体 语法 。 


(1) 列举 使 用 Python 的 几 个 理由 。 
(2) 分 阶段 详细 写 出 程序 运行 时 Python 内 部 的 执行 过 程 。 
(3) 下 面 的 程序 存在 着 什么 样 的 错误 ? 

printgw 

this is the first line 

this is the second line 


四 
print("hello Python") 


(4) 使 用 算数 运算 符 完善 程序 1.3 中 的 计算 器 ， 让 它 支 持 更 多 的 计算 方式 。 
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本 章 将 会 涉及 一 些 常用 的 Python 数据 类 型 以 及 在 中 学 数学 课 上 学 习 过 的 数据 类 型 的 表 
达 方 法 。 完 成 本 章 的 学 习 之 后 ， 需 要 掌握 : 

口 ”分 数 的 定义 方法 以 及 处 理 方式 。 

口 关于 复数 的 具体 操作 。 

口 “灵活 使 用 字符 串 。 

口 布尔 型 数据 和 逻辑 运算 符 的 使 用 。 


2.1 分 数 和 复数 的 表示 


先 来 谈 谈 分 数 和 复数 ， 这 都 是 我 们 在 数学 上 学 习 或 是 将 要 学 习 的 知识 。 通 过 本 章 的 学 
习 后 ， 我 们 可 以 利用 Python 处 理 更 多 的 操作 。 


2.1.1 分 数 


Python 可 以 处 理 分 数 ， 但 是 要 使 用 一 个 分 数 模块 。 我 们 对 模块 的 概念 可 能 还 很 模糊 ， 
但 在 后 面 会 正式 认识 它 。 现 在 ， 我 们 只 需 把 它 看 作 一 个 黑 盒 ， 知 道 它 是 可 以 处 理 分 数 的 工 
其 即 可 。 

接 下 来 ， 程 序 2.1 将 分 数 的 定义 以 及 各 种 使 用 方法 列 出 ， 我 们 对 照 程序 分 析 学 习 具 体 
的 方法 。 

程序 2.1: 
from fractions import Fraction 


f= Fraction(1. 2) 
print("print Fraction(1, 2) : {0}".format(f)) 


ee 


f= Fraction(2.5) 
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print("print Fraction(2.5) : {0}".format(f)) 


f= Fraction("2.5") 
10: print("print Fraction('2.5") : {0}".format(f)) 


12: f= Fraction(122, 368) 
13: print("print Fraction(122, 368) : {0}".format(f)) 


15: f= Fraction(1, 2) + Fraction(3, 8) 
16: print("print Fraction(1, 2) + Fraction(3, 8) : {0}".format(f)) 


18: f= Fraction(7, 8)+3 

19: print("print Fraction(7, 8) + 3 : {0}".format(f)) 
20: f= Fraction(7, 8)+3.0 

21: print("print Fraction(7, 8) + 3.0 : {0}".format(f)) 


23: f= Fraction(1, 2) * Fraction(2, 8) 
24: print("print Fraction(1, 2) * Fraction(2, 8) : {0}".format(f)) 


26: f= Fraction(1,2) 
27: print("the numerator of fis : {0} and denominator is : {1}".format(f.numerator, f.denominator)) 


输出 : 


print Fraction(1, 2) : 1/2 

Print Fraction(2.5) : 5/2 

print Fraction('2.5") : 5/2 

print Fraction(122, 368) : 61/184 

print Fraction(1, 2) + Fraction(3, 8) : 7/8 

print Fraction(7, 8) + 3 : 31/8 

print Fraction(7, 8) + 3.0 : 3.875 

Print Fraction(1, 2) * Fraction(2, 8) : 1/8 

the numerator of fis : 1 and denominator is : 2 


分 析 : 

程序 的 第 1 行将 Fraction 引入 。 程 序 的 3、6、9 行 对 应 着 不 同 的 分 数 指定 方法 ， 第 3 
行 中 我 们 使 用 Fraction(1, 2) 的 方式 , 第 6 行将 浮 点 数 2.5 作为 参数 , 第 9 行 甚至 将 一 个 字符 
串 作 为 参数 传 入 。 但 是 ， 看 看 前 3 行 输出 结果 : 这 3 种 分 数 声明 方式 都 是 正确 的 ， 都 会 返 
回 一 个 分 数 ， 即 我 们 可 以 根据 实际 的 需求 选用 任意 一 种 分 数 声明 方式 。 
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程序 的 第 12 行 我 们 指定 了 分 数 1221368, 这 是 一 个 可 约 分 的 分 数 , 通过 第 4 行 的 输出 
可 以 看 到 约 分 已 经 完成 。 

程序 的 第 15、18、20 行 都 是 简单 的 加 法 运算 ， 但 输出 的 结果 却 不 同 。 第 15 行 ， 两 个 
Fraction 对 象 相 加 时 ， 输 出 同 之 前 的 一 样 。 第 18 行 ，Fraction 对 象 和 一 个 整 型 数 相 加 ， 输 
出 也 同 之 前 一 样 。 但 是 ,我 们 来 看 看 第 20 行 ， 当 Fraction 对 象 和 一 个 浮 点 数 相 加 时 ， 输 出 
的 结果 却 变 成 了 浮 点 数 。 如 果 程 序 对 输出 要 求 很 严格 的 话 ， 应 该 想 好 需要 使 用 什么 类 型 。 

最 后 ， 来 看 看 程序 的 第 23 行 和 第 27 行 。 第 23 行 是 两 个 Fraction 对 象 相 乘 返回 一 个 分 
数 ， 它 们 不 是 简单 地 互 乘 ， 相 乘 的 结果 会 自动 约 分 之 后 再 输出 。 第 27 行使 用 了 Fraction 中 
的 numerator 和 denominator 两 个 属性 ， 它 们 分 别 是 分 数 的 分 子 和 分 母 。 

关于 Python 中 分 数 的 操作 先 介绍 到 这 里 。 后 续 若 有 其 他 关于 分 数 的 操作 我 们 再 根据 具 
体 的 程序 进行 分 析 。 


2.1.2 复数 


到 目前 为 止 ， 我 们 接触 到 的 都 是 实数 ， 但 是 不 管 是 在 学 校 的 课程 (人 教 版 课本 是 高 中 
数学 选修 2 一 2。 若 你 还 没有 学 到 复数 这 一 概念 ， 可 以 先 跳 过 这 节 ， 或 是 查阅 数学 教材 再 来 
阅读 。 我 们 不 在 这 里 细 谈 数学 概念 ) 中 还 是 在 实际 的 工程 操作 中 ， 这 都 是 远 远 不 够 的 。 

Python 为 我 们 提供 了 复数 以 及 关于 复数 的 操作 。 注 意 ， 在 数学 课 上 通常 用 i 来 定义 复 
数 的 虚 部 ， 但 是 在 Python 中 使 用 的 是 j。 例 如 ， 在 笔算 时 通常 会 写 2+3i 这 种 形式 ， 但 是 ， 
在 Python 中 我 们 要 输入 2+3j。 接 下 来 用 程序 2.2 来 看 看 复数 的 具体 操作 。 

程序 2.2: 

上 jj 
b=complex(4. 9) 
Print(type(a)) 
Print(type(b)) 


print(a + b) 
print(a - b) 
print(a * b) 
print(a / b) 


一 Co" 
ee 


print("the real of a ls : {0}, imag is {1}".format(a.real, a.imag)) 
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12: print("the conjugate of a is : {0}".format(a.conjugateO)) 
13: print("the magnitude of a is : {0}".format(abs(a))) 
输出 : 
<class 'complex'> 
<class 'complex'> 
(6+12j) 
(2-0) 
(-19+30j) 
(0.36082474226804123-0.061855670103092786j) 
the real ofais : 2.0, imag is 3.0 
the conjugate of a is : (2-3j) 
the magnitude of a is : 3.6055512754639896 
分 析 : 
程序 的 第 1 行 和 第 2 行使 用 了 两 种 方法 指定 复数 ， 第 一 种 使 用 了 我 们 很 熟悉 的 方法 ， 
但 是 一 定 注意 Python 中 虚 部 不 是 用 i 表示 。 第 二 种 方法 是 使 用 complex 函数 ， 它 的 第 一 个 
参数 是 实 部 ， 第 二 个 参数 是 虚 部 ， 第 2 行 语句 的 结果 同 b= 4+ 9j 一 样 。 第 3 一 4 行 是 将 它 
们 的 类 型 输出 ， 可 以 看 到 输出 结果 中 第 1 行 和 第 2 行 是 a 和 bb 的 类 型 。 关 于 输出 中 的 class 
关键 字 在 这 里 先 不 细 谈 。 
程序 的 第 6~9 行 对 应 了 复数 的 加 减 乘 除 运算 ， 这 个 相 比较 笔算 而 言 就 很 有 优势 了 。 我 
们 可 以 将 较为 复杂 的 步骤 交 给 Python 去 做 。 输 出 结果 中 的 第 3 一 6 行 是 运算 结果 。 
程序 的 第 11 行 分 别 输出 了 复数 的 实 部 与 虚 部 ， 这 里 我 们 要 注意 的 是 输出 结果 中 的 第 7 
行 ， 使 用 real 和 imag 属性 输出 的 是 浮 点 型 的 数 。 
程序 的 第 12 行 , 我 们 直接 使 用 conjugate 方法 来 输出 a 的 共 罗 复数 , 结果 在 输出 的 第 8 行 。 
最 后 ,程序 的 第 13 行 , 我 们 使 用 abs 方法 来 计算 复数 的 大 小 , 这 和 语句 “(a.real ** 2 十 
a.imag **2) ** 0.5” 的 运算 结果 是 一 样 的 。 


2.2 字 符 串 


在 第 1 章 的 Python 基础 中 已 经 简单 地 介绍 过 字符 串 的 定义 方式 以 及 一 些 注意 事项 , 接 
下 来 我 们 用 程序 2.3 来 介绍 关于 字符 串 的 具体 操作 。 
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程序 2.3: 
1 str = "hello world" 

2 

3 print(str) 

4: print(str[0]) 

5: print(str[3:7]) 

6: print(str[1:]) 

7: print(str * 4) 

8: print(str +" type: String") 
输出 : 


hello world 

h 

low 

ello world 

hello worldhello worldhello worldhello world 
hello world type : String 


分 析 : 

在 程序 的 第 1 行 中 我 们 看 到 了 很 熟悉 的 字符 串 的 定义 ， 第 3 行 是 对 整个 字符 串 进 行 打 
印 输出 ， 就 像 输出 结果 里 的 第 1 行 显示 的 那样 。 下 面 重点 解析 第 4 一 8 行 代码 。 

在 Python 中 有 两 种 字符 串 列表 取 值 顺序 : 从 左 到 右 索 引 ( 见 表 2.1 ) 和 从 右 到 左 索 引 
( 见 表 2.2 ) 。 当 使 用 从 左 到 右 索 引 时 ,默认 是 从 0 开始 ， 索引 值 为 0 时 表示 字符 串 的 第 一 
个 字符 ， 以 此 类 推 ， 从 左 到 右 依 次 加 1， 最 大 范围 是 字符 串 长 度 减 1。 当 使 用 从 右 到 左 索 引 
时 ， 默 认 是 从 -1 开始 ， 索 引 值 -1 即 表示 最 后 一 个 字符 ， 从 右 到 左 依次 减 1， 最 大 范围 是 字 
符 串 的 开头 。 


表 2.1 从 左 到 右 索 引 ( 第 2 行为 索引 号 ) 
h 虹 1 1 WwW 0 I 1 d 
0 1 2 3 5 6 久 8 9 10 
表 2.2 从 右 到 左 索 引 ( 第 2 行为 索引 号 ) 


h 0 Ww 0 Tr E d 
-11 -10 -7 -5 -4 -3 -2 -1 
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理解 了 取 值 顺序 之 后 ,程序 的 第 4 一 8 行 也 就 不 难 理解 了 。 程 序 的 第 4 行 只 输出 了 字符 
串 的 第 1 个 字符 ， 第 5 行 语句 的 意思 是 索引 值 从 第 3 个 字符 开始 到 第 6 个 字符 ( 注意 不 是 
到 第 7 个 字符 ,str[x,y] 表 示 的 是 字符 从 索引 值 为 x 的 字符 开始 到 索引 值 为 yY-1 的 字符 结束 )。 
程序 的 第 6 行 输出 索引 值 为 1 开始 的 字符 及 其 往 后 的 整个 字符 串 ， 即 输出 结果 中 第 4 行 所 
示 的 ello world。 程 序 的 第 7 行 表示 将 str 的 内 容 输出 4 次。 程序 的 第 8 行使 用 “+” 号 将 两 
个 字符 串 拼接 成 一 个 连续 的 字符 串 。 


23 布 尔 型 


前 文 已 经 提 到 过 布尔 类 型 的 数据 ， 布 尔 型 只 有 True 和 False 两 种 值 。 接 下 来 ， 可 以 通 
过 程序 2.4 来 看 看 到 底 什么 是 Trme， 什 么 是 False。 

显 序 2.4: 
print(True) 
print(False) 


print(True and "second") 
print(False and "second") 


CN Om 


print(True or "second") 


输出 : 


True 
False 
Second 
False 
True 


分 析 : 

程序 中 的 第 1 行 和 第 2 行将 True 和 False 输出 , 可 以 发 现 它们 就 是 True 和 False。 第 4、 
5 行 用 到 了 第 1 章 学 到 的 and 运算 符 ， 从 它们 的 输出 结果 可 以 看 出 and 运算 符 的 特性 。 第 4 
行 的 输出 结果 是 一 个 字符 串 second， 为 什么 结果 不 是 布尔 值 ? 这 是 因为 Python 将 0、 空 字 
符 "" 和 None 看 成 False， 而 其 他 数值 和 非 空 字符 串 都 看 成 True。 
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再 看 看 第 5 行 的 输出 结果 ， 它 只 是 输出 了 False， 这 是 因为 and 的 “短路 ”特性 ，and 
发 现 它 的 第 一 段 是 False 就 不 会 再 往 后 算 而 是 直接 返回 False。 接 下 来 再 看 看 第 7 行 的 输出 
结果 ， 没 错 ，or 也 有 “短路 ”特性 ，or 发 现 第 一 段 为 真 之 后 就 不 会 继续 计算 而 是 直接 输出 


True。 
2.4 趣味 练习 


本 章 的 趣味 练习 将 使 用 一 个 模拟 书店 清单 的 程序 来 对 买书 以 及 打折 的 结算 过 程 进行 模 
先 来 看 程序 2.5。 
程序 2.5: 


from fractions import Fraction 

number = eval(input("How many books do you want?")) 
cost = eval(input("How much does each book cost?")) 
total = number * cost 

discount = Fraction(3/4) 

finally_total = total * discount 


拟 


Ry 


print("The cost of these books is {}".format(total)) 

:print("The discount of the activity is {}".format(discount)) 

0: print("The reality cost of these books is {}".format(finally_total)) 

1: print("The activity has saved money: {}".format(total - finally_total)) 


el 


输出 : 


How many book do you want?50 
How much does each book cost?30 
The cost of these books is 1500 

The discount of the activity is 3/4 

The reality cost of these books is 1125 
The activity has saved money: 375 


点 睛 : 

程序 总 体 上 比较 清晰 ， 是 一 个 较为 简单 的 单 流程 程序 ， 在 这 里 要 说 的 是 出 现在 第 2 
行 和 第 3 行 的 eval 函数 ， 它 的 功能 是 将 输入 的 字符 串 当 成 有 效 的 表达 式 来 求 值 并 返回 计 
算 结果 。 
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在 使 用 input 接收 输入 的 时 候 , 返回 的 输入 内 容 是 一 个 字符 串 类 型 ， 它 不 能 用 于 后 续 的 
计算 ， 在 之 前 的 程序 中 我 们 使 用 的 是 int 或 是 float 对 其 进行 类 型 转换 ， 但 是 在 这 里 我 们 使 
用 的 是 eval 函数 ， 因 为 它 十 分 强大 ， 它 的 功能 也 不 仅 限 在 本 章 的 趣味 练习 中 使 用 的 那样 ， 
关于 它 在 后 文 还 会 提 到 。 


25 总 结 


通过 本 章 的 学 习 会 发 现 ， 在 Python 中 实现 一 些 数学 操作 也 是 很 方便 的 ， 只 需要 调用 某 
些 方法 就 可 以 完成 。 本 章 讲解 了 分 数 和 复数 、 字 符 型 和 布尔 型 的 数据 类 型 以 及 相关 的 操作 ， 
还 有 一 些 本 章 中 没有 提 到 的 数据 类 型 ， 后 文 会 具体 介绍 。 


26. : 基 习 


(1) 写 出 语句 print(Fraction(9, 5) + 0.2) 的 运行 结果 。 
—1—3i 
(2) 编写 Python 程序 输出 一 一 的 结果 。 
(3) 写 出 下 面 程序 的 运行 结果 。 
1: string="Thisisa String" 
2: print(string[1:9]) 
3: print(string[-7:-1]) 


(4) 分 析 True and "second" or "third" 的 计算 结果 是 什么 ， 为 什么 ? 
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本 章 开始 学 习 Python 的 条 件 控制 语句 和 循环 控制 语句 ， 通 过 本 章 的 学 习 ， 需 要 掌握 : 
熟练 使 用 Python 中 流程 控制 语句 。 

使 用 条 件 语 句 来 处 理 特殊 情形 。 

根据 特定 的 条 件 改变 程序 的 行为 。 

使 用 适当 的 循环 语句 处 理 具体 情况 。 


口 


DODO 


3.1 条 件 控制 语句 


Python 中 的 条 件 控制 语句 主要 是 围绕 让 语句 展开 的 ， 下 面 将 根据 具体 内 容 详细 展开 。 
3.1.1 理解 Python 中 的 条 件 控制 语句 


条 件 控制 语句 是 通过 条 件 表达 式 的 执行 结果 来 决定 后 续 执行 代码 的 ， 执 行 的 一 般 流程 
如 图 3.1 所 示 。 


图 3.1 条 件 控制 语句 流程 图 
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对 于 条 件 表 达 式 ，Python 指定 非 0 和 非 空 值 为 True，0 或 Null 为 False。 接 下 来 看 看 具 
体 的 条 件 控制 语句 。 


3.1.2 if…else 语句 


具体 语法 : 
if expression: 
expr_true_suite 
else: 
expr_ false_suite 
这 是 一 个 很 好 理解 的 语句 ， 它 由 4 部 分 组 成 : 关键 字 本 身 ， 用 于 判断 结果 真 假 的 条 件 
表达 式 〈expression) ， 条 件 为 真 True) 时 执行 的 代码 块 以 及 条 件 为 假 (False) 时 执行 的 
代码 块 。 
提示 : 
(1 ) 多 重 条件 表 达 式 的 情况 : 正如 字面 意思 所 说 ， 多 重 条 件 表 达 式 就 是 情况 复杂 以 至 
于 一 条 证 语句 的 执行 是 由 很 多 因素 决定 的 。 我 们 可 以 使 用 逻辑 运算 符 and、or 以 及 not 来 
组 合 条 件 表达 式 。 
(2 ) 让 else 结构 中 的 else 部 分 是 可 选 的 。 有 时 候 我 们 只 需要 一 个 判断 成 功 时 的 操作 ， 
而 不 需要 考虑 如 果 判 断 不 成 功 的 情形 ， 即 没有 else 及 其 之 后 的 语句 。 这 在 实际 的 程序 编写 
时 也 是 很 常用 的 。 
注意 : 
尽管 Python 使 用 的 是 强制 代码 正确 对 齐 , 这 使 得 在 程序 中 出 现 不 匹配 else 是 不 可 能 的 ， 
但 是 你 一 定 要 想 好 else 是 属于 哪个 让， 因为 要 改正 程序 中 的 这 类 错误 是 很 费 精 力 的 。 


我 们 都 知道 在 同 条 件 的 环境 下 使 用 催化 剂 会 加 快 化 学 反应 速度 , 在 这 里 仅仅 抽取 化 
学 实验 中 是 否 添加 催化 剂 这 个 条 件 ， 来 判断 化 学 反应 的 速度 等 级 。 具 体 程 序 如 程序 3.1 
所 示 。 

程序 3.1 判断 化 学 反应 速度 等 级 : 

1: catalyst= input("Adding catalyst? (y/n)") 

if catalyst 一 'y': 
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4: print("The speed grade is rapid.") 

5: 人 Sex 

6: print("The speed grade is normal.") 

输出 : 

Adding catalyst? (y/n) :y 

The speed grade is rapid. 

分 析 : 

程序 整体 上 比较 简单 ， 但 比较 明了 地 展现 了 if…else 语句 在 程序 中 是 如 何 使 用 的 。 程 
序 根据 输入 判断 具体 执行 哪 条 输出 语句 。 如 果 我 们 的 输入 值 为 Y 的 话 ， 经 过 第 3 行 的 判断 
语句 ， 程 序 会 转 入 执行 第 4 行 。 和 否则 的 话 ， 程 序 将 直接 执行 第 6 行 。 程 序 流程 图 如 图 3.2 
所 示 。 


alyst 
类 收 


”alse 


输出 normal 


图 3.2 程序 流程 图 
3.1.3 ”elif 语句 


具体 语法 : 


1f expressionl: 
exprl]_true_suite 
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elif expression2: 
expr2_true_suite 


elif expressionN: 
expIN_true_suite 
else: 
none Suite 


elif 即 else 让 其 中 elif 和 else 一 样 ， 声 明 都 是 可 选 。 引 入 这 个 语句 是 为 了 解决 有 多 个 


条 件 待 选择 的 情况 。 假 如 你 要 为 老师 编写 一 个 简单 的 划分 成 绩 等 级 的 程序 ， 该 程序 要 做 到 
输入 分 数 自动 生成 对 应 的 等 级 ， 分 数 对 应 的 等 级 分 为 不 及 格 、 及 格 、 良 好 以 及 优秀 。 这 时 


就 可 


图 如 


以 使 用 elif 语句 。 具 体 程序 如 程序 3.2 所 示 。 
旦 序 3.2 ”根据 成 绩 完成 详细 的 成 绩 评定 : 


l: mark= int(input("Enter the mark : ")) 
2: ifmark< 60: 

3: print("The grade is fail.") 

4: elif mark<75: 

5 print("The grade is pass.") 

6: elif mark < 85: 

print("The grade is good.") 

8: elif mark <=100: 

9: print("The grade is excellent.") 
10: else: 

hE print("The mark is invalid.") 
输出 : 

Enter the mark : 90 

The grade is excellent. 

分 析 : 


程序 的 第 1 行 和 程序 3.1 一 样 ， 剩 下 部 分 展现 了 if…elif…else 语句 的 实现 。 程 序 流程 
图 3.3 所 示 。 
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开始 


[可 7 
量 接收 


输出 fail 
True 
1 1 
ralse 
输出 输出 True 
pass good 1 1 
输出 输出 
excellent invalid 
一 
结束 


图 3.3 程序 的 流程 图 
注意 : 
如 果 你 之 前 接触 过 C/C++， 那么 很 遗憾 ，Python 中 没有 switch 语句 ， 但 是 你 可 以 使 用 
if…elif…else 语句 来 做 同样 的 事情 。 
通过 上 面 的 例子 ， 我 们 已 经 了 解 了 直 …elif…else 语句 的 结构 ， 接 下 来 看 一 个 模拟 机 器 
险 测 PM2.5 值 的 例子 。 在 机 器 内 部 ， 通 过 传感器 检测 PM2.5 的 值 ( 见 图 3.4) ， 然 后 再 判 
断 这 个 值 对 应 的 空气 情况 。 具 体 程序 如 程序 3.3 所 示 。 
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图 3.4 正在 工作 的 传感器 


程序 3.3 ”模拟 机 器 检测 PM2.5: 


# suppose that the PM2.5 value has been detected to be 80 
pm val= 0b1010000# 80 


if pm val > 0 and pm val < 0b100011:#0-35 
print("The air quality is excellect.") 
elif pm val < 0b1001011:#35 - 75 
print("The air quality is good.") 
else: 
print("The air quality is polluted.") 


Wo 


The air quality is polluted. 


分 析 : 

程序 使 用 了 一 个 让 …elif…else 语句 模拟 了 机 器 检测 PM2.5 的 例子 ， 由 于 我 们 已 经 学 习 
了 条 件 控制 语句 ， 所 以 理解 这 个 例子 并 不 难 。 但 是 要 注意 的 是 ， 真 正在 机 器 中 使 用 的 是 二 
进 制 ， 在 这 里 先 简单 介绍 一 下 关于 进 制 的 内 容 。 

在 Python 中 ， 我 们 分 别 使 用 0b、0o、0x 作为 二 进 制 数 、 八 进 制 数 以 及 十 六 进 制 数 的 
开头 , 后 跟 具 体 要 表示 的 数 , 就 像 程序 3.3 中 二 进 制 数 1010000 需要 写成 0b1010000。 另外， 
十 进 制 数 ( 假 设 存 入 变量 num) 也 可 以 使 用 binum)、octnum)、hexnum) 分 别 生 成 num 
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中 十 进 制 数 对 应 的 二 进 制 数 、 八 进 制 数 、 十 六 进 制 数 。 
注意 : 
使 用 bin、oct、hex 这 3 个 函数 的 返回 值 是 字符 串 类 型 。 


3.2 ”循环 控制 语句 


本 节 将 详细 介绍 Python 中 的 while 循环 语句 和 for 循环 语句 以 及 一 些 控制 语法 。 
3.2.1 理解 Python 中 的 循环 语句 


Python 提供 了 while 循环 语句 和 for 循环 语句 以 及 break、continue 等 循环 控制 语句 , 循 
环 语句 执行 的 一 般 流程 如 图 3.5 所 示 。 


| 


图 3.5 循环 语句 流程 图 


循环 语句 允许 执行 一 条 语句 或 语句 组 多 次 ， 允 许 更 复杂 的 执行 路 径 。 下 面 来 学 习 本 音 
最 重要 的 两 个 语句 : while 循环 语句 和 for 循环 语句 。 


3.2.2 ”while 循环 语句 


具体 语法 : 


while expression: 
suite_to_repeat 


while 循环 语句 中 的 suite_to_repeat 会 一 直 循 环 执行 ， 直 到 表达 式 〈expression) 的 值 为 
假 〈False) 。 执 行 流 程 图 如 图 3.6 所 示 。 
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False 


4 
图 3.6 ”while 循环 语句 流程 图 


接 下 来 用 一 个 日 常 的 例子 来 更 加 明了 地 展示 while 的 用 法 : 假如 老师 让 你 完成 全 班 同 
学 的 成 绩 评定 〈 全 班 同学 的 排列 是 有 序 的 ) ， 你 该 怎么 做 呢 ? 在 这 种 情况 下 ， 需 要 为 全 班 
的 每 一 个 同学 都 重复 执行 一 次 评定 代码 ， 也 就 是 在 循环 中 执行 评定 代码 。 因 为 已 经 将 全 班 
同学 的 排列 设置 为 有 序 的 ， 这 使 得 我 们 不 用 考虑 班级 成 员 的 姓名 ， 直 接 用 数字 代 蔡 。 具 体 
程序 如 程序 3.4 所 示 。 

旺 序 3.4 ”全 体 成 绩 评 定 : 


1 num = int(input("Enter the class size : ")) 

2 

3 count=0 

4: while count < num: 

SS: mark = int(input("Enter the mark : ")) 

6: if mark < 60: 

yd print("The No.{0} grade is fail.".format(count+1)) 
8: elifmark < 75: 

9: print("The No.{0} grade is pass.".format(count+1)) 
10: elifmark < 85: 

i: print("The No. {0} grade is good.".format(count+1)) 
了 到; else: 

1 print("The No.{0} grade is excellent.".format(count+1)) 


1 count += 1 
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输出 : 


Enter the class size : 2 

Enter the mark : 22 

The No.1 grade is fail. 

Enter the mark : 64 

The No.2 grade ls pass. 

分 析 : 

程序 的 第 5 一 15 行 是 循环 执行 部 分 ， 从 缩 进 格式 可 以 看 出 它们 是 在 while 循环 中 的 ， 
注意 最 后 一 行 的 count+=1， 这 是 count= count+ 1 的 简写 。 我 们 设 定 count 让 它 在 每 次 的 
循环 之 后 加 1， 以 此 达到 控制 程序 的 目的 。 直 到 count 自 增 到 不 再 小 于 num 的 时 候 循环 结束 ， 
也 就 是 说 ， 当 count 与 num 相等 时 不 会 进入 循环 结构 中 ， 因 为 这 个 特性 而 且 我 们 还 要 保证 特 
环 的 次 数 ， 所 以 将 count 的 初 值 设 为 0， 循环 条 件 设置 为 count<num， 但 这 样 又 与 编号 差 1 ， 
所 以 在 打印 时 我 们 使 用 countrl (也 可 以 让 count 初 值 为 1， 循 环 条 件 为 count<=num， 这 样 
在 打印 的 时 候 用 count 即 可 ) 。 


注意 : 

(1 ) 在 循环 中 使 用 自 增 变量 (就 是 程序 3.4 中 的 变量 count ) 控制 循环 条 件 是 一 种 很 
常见 的 用 法 。 

(2 ) 对 于 while 循环 的 循环 控制 变量 要 小 心 对 待 ， 因 为 有 些 值 永远 不 会 为 False, 这 样 
的 循环 是 永远 不 会 结束 的 ， 当 然 这 也 不 一 定 是 坏事 ， 这 取决 于 实际 情况 。 

通过 上 面 的 例子 ，while 语句 的 用 法 已 经 明确 了 ， 接 下 来 我 们 用 一 个 等 差 数 列 的 例 
子 进一步 讨论 while 的 用 法 。 这 是 一 个 简单 输出 指定 项 数 的 等 差 数 列 ( 首 项 为 23， 公 
差 为 2/5) 各 项 的 程序 ， 具 体 的 各 项 为 23、16/15、22/15、28/15〈 这 里 只 列举 数列 的 前 
4 项 ) 。 我们 将 在 这 个 例子 中 引入 Python 中 分 数 的 表达 方法 ， 这 样 在 本 例 之 外 可 以 使 
用 Python 做 更 多 的 事情 。 关 于 程序 的 具体 解析 在 分 析 中 有 更 详细 的 说 明 。 具 体 程 序 如 
程序 3.5 所 示 。 

程序 3.5 输出 指定 项 数 的 等 差 数 列 的 各 项 : 
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from fractions import Fraction 


size = int(input("Please input the size of sequence : ")) 
count=0 
step=0 
while count < size: 
print(Fraction(2, 3) + step) 
step += Fraction(2, 5) 
count +=1 


ND 


输出 : 


Please input the size of sequence :6 
2/3 

16/15 

22/15 

28/15 

34/15 

8/3 


分 析 : 

在 程序 3.5 中 ， 我 们 使 用 Python 提供 的 Fraction 方法 来 表示 分 数 ， 它 的 原型 是 : 

Fraction(numerator, denominator) 

也 就 是 说 ， 它 接收 两 个 参数 ， 第 一 个 作为 分 子 ， 第 二 个 作为 分 母 。 它 可 以 直接 与 数 
运算 ( 如 Fraction(5,16)+3) ， 也 可 以 在 Fraction 对 象 之 间 相 互 运算 【如 Fraction(1, 16)* 
Fraction(3,16) ] 。 另 外 ， 关 于 模块 、 对 象 的 详细 使 用 方法 后 文 会 介绍 ， 在 这 里 你 可 以 简单 
地 将 Fraction(2, 3) 理 解 为 我 们 平时 笔算 时 写 的 213 。 

现在 继续 回 到 程序 中 ， 第 1 行 中 的 语句 可 以 简单 地 理解 为 将 Fraction 模块 导入 到 此 程 
序 中 ， 这 样 就 能 用 Fraction 方法 了 。 接 下 来 我 们 使 用 step 表示 公差 ， 在 while 循环 中 不 断 
地 加 到 首 项 上 , 以 此 构造 一 个 等 差 数列 , 并 在 最 后 输出 。while 循环 还 是 和 上 一 个 例子 一 样 ， 
是 通过 自 增 变量 控制 的 。 程 序 流程 图 如 图 3.7 所 示 。 
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三 是 
/从 /— 


True 


输出 step+2/3 


step=step+2/5 


图 3.7 程序 流程 图 


False 


思考 题 : 

Fibonacci 数列 是 数学 中 一 个 非常 重要 的 数列 ， 它 指数 列 前 两 项 为 1 并 且 从 第 3 项 开始 
往 后 ,每 一 项 都 等 于 前 两 项 之 和 。 例 如， 数列 的 前 5 项 为 “1, 1,2,3,5”。 在 这 里 我 们 来 思 
考 一 下 ， 如 何 使 用 while 循环 语句 输出 最 后 一 项 小 于 1000 的 Fibonacci 数列 。 

关于 Fibonacci 数列 还 有 一 种 递归 实现 , 关于 递归 的 概念 以 及 有 具体 实现 方式 在 本 书 的 函 
数 部 分 会 详细 讲解 。 

3.2.3 for 循环 语句 


具体 语法 : 


for iter_var in iterable: 
statement(s) 
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for 循环 是 Python 提供 的 另 一 个 循环 机 制 , 它 会 依次 访问 一 个 已 选 定 的 可 友 代 对 象 ( 例 
如 ， 我 们 很 常见 的 字符 串 、 序 列 或 是 元 组 ) 中 的 所 用 元 素 ， 即 遍历 可 迭代 对 象 ， 这 个 过 程 
在 具体 语法 中 就 是 将 iter_var 设置 为 iterable 中 的 当前 元 素 , 当 iterable 中 的 所 有 的 条 目 (如 
序列 中 的 项 ) 都 处 理 过 后 结束 循环 。 执 行 流程 如 图 3.8 所 示 。 


Ifno more 
item in 
Sequence 


Next item 


Execute 
statement(s) 


图 3.8 for 循环 语句 流程 图 


注意 : 

读 完 上 面 这 一 段 for 循环 的 具体 介绍 ， 你 可 能 会 有 疑问 ， 什 么 是 迭代 ? 你 可 以 将 迭代 
理解 为 一 种 环形 结构 ， 它 也 叫 循环 ，while 和 for 语句 也 被 称 为 迭代 语句 。 

如 果 你 之 前 接触 过 C/C++ 或 者 Java 的 话 ， 请 一 定 注意 ，Python 中 的 for 语句 与 其 他 纺 
程 语 言 的 用 法 不 同 。 

到 这 里 我 们 已 经 知道 了 for 循环 会 遍历 一 个 可 迭代 对 象 ， 下 面 来 看 看 如 何 使 用 它 。 
我 们 介绍 两 种 基本 方法 : 使 用 序列 项 或 者 序列 索引 。 假 如 已 经 拿 到 你 们 小 组 的 名 单 ， 而 
老师 需要 你 将 小 组 成 员 的 名 字 和 组 号 一 同 输出 。 诸 如 此 类 的 情况 ，for 语句 可 以 很 好 地 
实现 。 

程序 3.6 会 使 用 序列 项 迭代 来 遍历 输出 名 单 上 的 名 字 。 

程序 3.6 ”使 用 序列 项 迭代 : 
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name = ['Sam', ‘Lily’, 'Tom', "William', "Michael', Leo] 


由 

9 

3: foritem in name: 

4 print(item, '--Group 5 ) 


Sam --Group 5 
Lily --Group 5 
Tom --Group 5 
William --Group 5 
Michael --Group 5 
Leo --Group 5 


分 析 : 

程序 中 name 是 一 个 列表 ,代表 着 小 组 成 员 名 单 ， 我 们 用 for 语句 迭代 这 个 列表 ， 
其 中 item 变量 在 每 次 的 循环 中 都 会 被 赋值 为 列表 中 的 某 个 特定 的 元 素 ， 以 供 循 环 中 的 
语句 使 用 。 

介绍 完 使 用 序列 项 迭代 之 后 ， 我 们 来 看 看 另 一 种 方法 ， 使 用 序列 索引 迭代 。 不 同 于 使 
用 序列 项 迭代 ， 使 用 序列 索引 夫 代 就 如 同 字面 意思 所 说 ， 操 作 的 重点 在 于 拿 到 序列 索引 号 
并 通过 它 获取 序列 中 的 项 。 还 是 上 面 的 例子 ， 我 们 改 用 序列 索引 过 代 实现 ， 具 体 程序 如 程 
序 3.7 所 示 。 

旦 序 3.7 ”使 用 序列 索引 进 代 ; 

name = ['Sam', ‘Lily', 'Tom', "William', "Michael', 'Leo'] 


| 

2 

3: for itemIndex in range(len(name)): 

4 print(name[itemIndex], '--Group 5 ") 


输出 : 


Sam --Group 5 
Lily --Group 5 
Tom --Group 5 
William --Group 5 
Michael --Group 5 
Leo --Group 5 
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分 析 : 

本 程序 和 程序 3.6 看 上 去 相似 ,但 是 并 不 相同 ， 在 本 程序 中 你 会 发 现 一 个 略 显 生 下 
的 函数 一 一 range， 它 的 作用 是 返回 一 个 序列 ， 这 个 序列 正好 就 是 我 们 需要 的 迭代 序列 。 
我 们 将 range 的 参数 设置 为 姓名 列表 ( name ) 的 长 度 ,这样 从 range(len(name)) 中 获取 的 
数 即 可 作为 name 的 索引 数 (注意 使 用 range 函数 获取 序列 的 值 是 从 0 开始 , len(name)-1 
结束 ) ， 再 使 用 name 列表 的 切片 操作 来 获取 与 索引 值 相对 应 的 项 ， 并 在 for 循环 中 完 
成 输出 。 

看 完 分 析 你 可 能 仍 对 range 函数 存 有 疑惑 ， 下 面 我 们 再 详细 地 谈 谈 range 函数 。 先 来 看 
看 完整 的 range 函数 : 

range(start, end, step) 

range 函数 会 返回 一 个 包含 所 有 项 的 列表 ,这 里 我 们 假设 项 为 i,i 会 满足 start<=i< end,， 
从 start 开始 ，i 每 次 递增 step( 注 意 : step 一 定 不 能 为 0) 。 例 如 ，range(2, 6, 2) 会 返回 列表 
[2, 4]。 

我 们 经 常用 到 的 是 它 的 两 种 简化 形式 : 


Tange(end) 
range(start, end) 


第 一 种 只 接收 一 个 end 值 ， 它 的 start 默认 为 0，step 为 1。 例 如 ，range(3) 会 返回 列表 
[0, 1, 2]。 第 二 种 接收 两 个 值 ， 它 的 step 默认 为 1。 例如，range(2, 4) 会 返回 列表 [2, 3]。 

当 for 循环 涉及 数字 操作 的 时 候 ， 使 用 range 函数 是 很 有 用 的 。 

提示 : 

如 果 你 的 程序 需要 考虑 到 性 能 的 问题 ， 那 么 对 于 上 文 所 讲 的 序列 项 迭代 和 索引 迭代 ， 
序列 项 迭代 的 速度 会 更 快 。 

注意 : 

这 里 ， 我 们 已 经 知道 for 循环 会 依次 访问 一 个 已 选 定 的 可 和 迭代 对 象 的 所 有 元 素 。 你 是 
和 否 会 疑惑 ， 它 是 怎样 做 到 的 呢 ? 实际 上 ， 在 for 循环 的 内 部 ， 它 会 自动 帮 有 我 们 调用 和 迭代 器 
的 next0 方 法 来 达到 遍历 的 效果 ， 它 也 会 捕获 StopIteration 异常 使 循环 结束 。 这 样 便 可 以 完 
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成 上 文 所 提 到 的 功能 。 

现在 你 应 该 对 于 for 循环 有 了 更 深 的 理解 ， 接 下 来 用 一 个 大 家 都 很 熟悉 的 例子 巩固 一 
下 。 在 物理 课 上 你 应 该 做 过 用 打点 计时 器 测速 度 的 实验 〈 人 教 版 高 中 物理 必修 1 第 一 章 ) ， 
现在 假设 我 们 拿 到 的 纸 带 如 图 3.9 所 示 。 


oOcm 1 2 3 


AB C.D 


图 3.9 用 于 实验 的 纸 带 

己 知 打点 计时 器 所 用 电源 频率 为 50Hz，AB 距离 为 0.0040m，BC 距离 为 0.0102m, CD 
距离 为 0.0106m。 我 们 要 求 每 一 段 的 平均 速度 。 具 体 程序 如 程序 3.8 所 示 。 

程序 3.8 求 纸 带 上 每 段 距离 的 平均 速度 : 

1: item len= [0.0040, 0.0102. 0.0106] 

2: sec=0.02 

3: print("The speedis:") 

4: foritem in item len: 

有 Print("{0} m/s".format( item/sec ), end=" ") 

输出 : 

The speed is : 

02ms 0.51ms 0.53ms 


分 析 : 

本 程序 涉及 物理 课 中 的 一 个 很 简单 的 测速 实验 ， 在 这 里 我 们 假设 已 经 测量 完 纸 带 的 
间距 并 将 它们 存储 在 item_len 列表 中 ， 用 item 庆历 获取 item len 列表 中 的 各 段 距离 值 用 
于 for 循环 中 的 具体 操作 。 由 打点 计时 器 所 用 的 电源 频率 为 50Hz 可 知 ， 纸 带 上 两 点 间隔 
的 时 间 为 0.02s， 得 到 这 些 条 件 后 ， 用 v=AX/At 来 求 得 每 段 的 平均 速度 。 程 序 流程 图 如 图 
3.10 所 示 。 


“50。 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 》 


Next item True 


False 
输出 


item/sec 


图 3.10 程序 流程 图 


注意 : 

在 编程 的 时 候 ， 我 们 可 以 让 两 个 字符 串 相 加 达到 组 成 一 个 字符 串 的 目的 ， 但 是 ， 在 程 
序 3.8 中 的 print 语句 中 你 不 能 使 用 print("{0} m/s" + item/sec) 的 形式 进行 输出 ， 因 为 此 时 
item/sec 是 float 类 型 ， 这 样 做 会 让 你 的 程序 报错 : TypeError: must be str, not float。 像 这 种 
从 其 他 信息 中 构造 字符 串 正 是 format() 方 法 大 有 用 武之 地 的 地 方 。 


3.2.4 break 语句 


break 语句 在 控制 中 很 常见 ， 它 可 以 终止 当前 的 循环 ， 即 跳出 循环 语句 执行 程序 中 的 下 
-条 语句 。 执 行 流程 图 如 图 3.11 所 示 。 


3.11 ”break 语句 流程 图 
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现在 我 们 已 经 对 break 语句 有 了 一 定 的 了 解 ， 接 下 来 用 一 个 例子 来 实践 一 下 。 我 们 都 
笔算 过 最 大 约 数 ， 接 下 来 就 用 Python 实现 算出 最 大 约 数 。 
程序 3.9 求 一 个 数 的 最 大 约 数 : 


num = int(input('Please enter a number : )) 
count = int(num/2) 


while count > 0: 
if num % count — 0: 
print('The largest factor of {0} is {1}'.format(num, count)) 
break 
count 一 1 


RE 


输出 : 


Please enter a number : 27 
The largest factor of 21 is 7 


分 析 : 
在 程序 3.9 中 ， 因 为 count 的 值 是 不 断 递 减 的 ， 所 以 第 一 个 能 整除 num 的 数 便 是 我 们 要 
找 的 ， 后 续 的 数 就 没有 必要 考虑 了 ， 使 用 break 语句 跳出 循环 。 程 序 流程 图 如 图 3.12 所 示 。 


um%count==07 


False 


count=count+1 


图 3.12 程序 流程 图 
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3.2.5 ”continue 语句 


我 们 可 以 将 continue 语句 理解 为 跳 过 当前 的 循环 块 ， 继 续 该 循环 的 下 一 次 迭代 。 先 来 
看 看 continue 语句 的 执行 流程 图 ， 如 图 3.13 所 示 。 


Code 


图 3.13 ”continue 语句 流程 图 
接 下 来 用 一 个 判定 提交 的 选项 是 否 正确 (假设 正确 的 选项 为 C) 的 程序 来 看 看 continue 
语句 是 如 何 工 作 的 。 
程序 3.10 ”判断 提交 选项 : 


while True: 

2 write = input("Please write your answer(Options are limited to A/B/O):") 
3 if write =='A': 

4: print("wrong") 
S: continue 

6 if write 一 'B': 

这 print("wrong") 
8: continue 

9: if write == 'C': 

10: print("right") 
I break 

12: print(CCongratulations!) 


输出 : 


Please write your answer(Options are limited to A/B/C):4 
wrong 
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Please write your answer(Options are limited to A/B/C):B 

De write your answer(Options are limited to A/B/C):C 

Tight 

Congratulations! 

分 析 : 

在 这 个 程序 中 不 仅 用 到 了 continue 语句 ， 还 用 到 了 许多 之 前 提 到 过 的 语句 。 在 第 1 行 
中 使 用 True 作为 while 的 循环 条 件 以 达到 可 以 不 断 地 对 选项 进行 判断 的 目的 ， 若 输入 不 是 
C, 那么 将 使 用 continue 语句 跳 过 本 次 循环 , 重复 下 一 次 循环 , 直到 输入 C 并 执行 break 语 
名 ， 才 终止 循环 并 获得 Congratulations!。 程 序 流程 图 如 图 3.14 所 示 。 


3.14 程序 流程 图 
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3.3 案例 : 百 钱 买 百 鸡 问题 


百 钱 买 百 鸡 是 我 国 古 代数 学 家 张 丘 建 提出 的 一 个 数学 问题 ， 它 的 内 容 是 鸡 俩 (公鸡 ) 
一 值钱 五 ， 鸡 母 〈 母 鸡 ) 一 值钱 三 ， 鸡 雏 三 值钱 一 〈 一 钱 三 只 ) 。 百 钱 买 百 鸡 ， 问 鸡 翁 、 
鸡 母 、 鸡 稚 各 几何 ? 

在 本 节 中 我 们 用 Python 编写 程序 对 问题 求解 ， 并 且 深 入 探讨 该 问题 的 深层 含义 。 有 具体 
的 Python 程序 如 程序 3.11 所 示 。 

程序 3.11 百 钱 买 百 鸡 : 


1 x_max = int(100/5) 

2: y_max= int(100/3) 

3 for x in range(x_max): 

4: for y in range(y_max): 

3 z=100-x-y 

6 if (z%3 一 0) and (5*x + 3*y+23 一 100): 

7 print( 公 鸡 {0} 只 ， 母 鸡 {1} 只 ， 小 鸡 {2} 只 '.format(x, y, z)) 


公鸡 0 只 ， 母 鸡 25 只 ， 小 鸡 75 只 

公鸡 4 只 ， 母 鸡 18 只 ， 小 鸡 78 只 

公鸡 8 只 ， 母 鸡 11 只 ， 小 鸡 81 只 

公鸡 12 只 ， 母 鸡 4 只 ， 小 鸡 84 只 

分 析 : 

程序 采用 枚 举 法 ， 即 逐个 考察 所 有 可 能 的 买 法 ， 最 后 留 下 符合 题 意 的 买 法 。 具 体 来 
说 ， 我 们 使 用 程序 中 的 双重 for 循环 来 实现 枚 举 法 。 首 先 固定 x 值 (公鸡 个 数 ) ， 再 固 
定 y 值 (和 母 鸡 个 数 ), 使 用 x 和 y 的 值 依 照 题 意 得 出 z 的 值 ( 锥 鸡 个 数 ) 并 判断 当前 x、 
y、z 值 是 否 符合 百 钱 买 百 鸡 ,符合 输出 ,不 符合 则 更 换 y 值 再 次 求 z 值 并 判断 ,直到 当 
前 x 值 下 的 所 有 y、z 值 全 都 不 符合 时 ,更换 x 值 再 次 进入 循环 ， 直 到 所 有 x 值 都 尝试 
过 后 ， 退 出 。 因 为 买 鸡 都 是 整 只 的 ， 因 此 在 程序 中 只 需 考虑 整数 情况 。 程 序 流程 图 如 图 
3.15 所 示 。 
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| 
1 


定义 
x_max,y_max 


False 
[No more item | 


False.next x 


True 
yin 
range(y_max)? 


Nexty 


一 一 False 符合 百 钱 买 百 鸡 条 件 ? 


True 


hs 


输出 本 次 的 x,y,z 


(_ 结束 ) 

图 3.15 程序 流程 图 

建立 数学 模型 
关于 百 钱 买 百 鸡 的 问题 并 不 复杂 ， 我 们 在 解释 的 时 候 使 用 x 代表 要 买 的 公鸡 个 数 ， 使 用 
了 代表 要 买 的 母 鸡 个 数 , z 代表 要 买 的 锥 鸡 个 数 ， 完 成 变量 的 设置 之 后 根据 本 题 的 题 意 建立 了 
数学 模型 Sxt3y+3z=100， 其 中 值 为 100-x-y， 有 了 这 两 个 式 子 之 后 我 们 就 可 以 对 抽象 的 
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题目 进行 定量 分 析 。 在 实际 应 用 中 ， 问 题 可 能 很 复杂 ， 其 对 应 的 数学 模型 也 会 十 分 复杂 ， 对 
此 我 们 可 能 会 用 到 函数 的 相关 知识 来 对 其 进行 数学 分 析 ， 这 也 是 很 常用 的 手段 。 


3.4 趣味 练习 


本 节 的 趣味 练习 引入 一 个 Python 中 的 绘图 模块 ， 它 会 创造 一 个 画布 并 附 有 画笔 ， 允 许 
我 们 对 画笔 编程 ， 先 来 看 程序 3.12。 


程序 3.12: 

1: import turtle 

2: t=turtle.PenO 
3: ， forxin range(6): 
4: tcircle(100) 
5: t.left(60) 


输出 ， 如 图 3.16 所 示 : 


请 加 
| 


图 3.16 程序 3.12 输出 结果 
点 睛 : 
首先 我 们 将 模块 turtle 引入 ， 它 是 这 个 画图 程序 用 到 的 模块 ,接着 我 们 将 变量 t 定 义 为 
画笔 ,在 for 循环 的 迭代 过 程 中 不 断 地 在 画布 中 画 圆 ,可 以 看 到 ,在 循环 的 迭代 中 使 用 circle() 
指定 了 在 画布 中 画 的 是 一 个 圆 , 同时 传 入 参数 100 表示 这 个 圆 的 半径 为 100 个 单位 ,left(60) 
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表示 将 画图 的 起 笔 逆 时 针 旋 转 60。， 这 个 会 影响 到 下 次 画图 位 置 。 
输出 图 3.16 (a) 是 绘图 的 过 程 ， 图 3.16 (b ) 是 最 后 完成 时 的 图 像 。 实 际 运行 只 会 输 
出 一 个 画图 界面 。 
接 下 来 我 们 再 来 看 看 趣味 程序 3.13, 从 程序 的 角度 来 说 , 相 比 于 程序 3.12 它 更 为 丰满 。 
程序 3.13: 


1: import turtle 

2: answer= input("Do you want to see a spiral?") 
3: ifanswer—'y': 

4: print("Working...") 
3 t=turtle.Pen0 

6: twidth(2) 

Ye for x in range(100): 
8: tforward(x*2) 
9: tleft(88) 

10: else: 

l= print("what a pity!") 
12: print("Done!") 


输出 ， 如 图 3.17 所 示 : 


图 3.17 程序 3.13 输出 结果 
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点 睛 : 

有 了 程序 3.12 的 铺垫 , 理解 程序 3.13 并 不 算 难 , 在 这 里 我 们 只 对 设置 画笔 部 分 简单 分 
析 一 下 。 程序 的 第 6 行 设置 了 画笔 的 粗细 , 第 8 行 设 置 了 在 每 次 迭代 中 要 向 前 画 出 的 长 度 ， 
第 9 行 设置 了 下 次 画图 时 的 偏转 方向 ， 在 画图 时 可 以 根据 需要 更 改 它 的 值 。 

输出 图 3.17 中 只 是 截取 了 画笔 在 工作 时 某 一 瞬间 的 图 像 ， 它 是 一 个 动 图 。 

趣味 一 刻 : 

如 果 将 程序 3.12 第 4 行 改 为 tcircle(-100), 程序 3.13 第 8 行 改 为 tforward(-x*#2) 的 话 ， 
对 应 的 输出 图 像 会 有 什么 效果 ? 


本 章 学 习 了 条 件 控制 语句 和 循环 控制 语句 ， 它 们 是 Python 中 最 常用 的 部 分 ， 在 本 书 的 
其 他 章 中 我 们 还 会 频繁 地 看 到 它们 的 身影 。 在 实际 编程 中 它们 也 担当 着 重要 的 角色 ,因此 ， 
尽快 去 习惯 使 用 它们 是 很 有 必要 的 。 

在 学 习 完 本 章 之 后 我 们 会 发 现 ， 其 实 本 章 提 到 的 所 有 语句 都 不 是 太 难 。 在 实际 编程 中 ， 
对 于 条 件 控制 语句 ， 重 点 应 放 在 根据 实际 情况 的 判断 处 理 好 每 一 种 分 支 。 而 对 于 循环 控制 
语句 ， 应 侧重 于 找到 需要 循环 处 理 的 部 分 以 及 如 何 控制 整个 循环 流程 。 


3.6 练 习 


(1) 参考 while 语句 和 让 语句 的 流程 图 画 出 程序 3.4 的 具体 流程 图 。 

(2) 输出 首 项 为 5， 公 比 为 2/7 的 等 比 数列 的 前 10 项 ， 并 循环 计算 这 个 数列 的 前 10 
项 和 。 

(3) 完善 程序 3.8， 让 程序 计算 并 输出 B 点 的 瞬时 速度 更 接近 于 多 少 。 

披 荆 斩 球 ( 选 做 ) : 

(1) 打印 如 下 所 示 的 1~6 三 角 阵列 。 
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1 
12 

123 

1234 

12345 

123456 

(2 ) 对 列表 [11,5,9,2,7,1,13,4] 进行 冒 泡 排序 。 


。S9 。 
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本 章 主 要 介绍 的 是 列表 〈list) 、 字 典 (dictionary〉 和 元 组 (tuple〉， 它 们 是 一 种 能 
将 数据 聚合 (存储) 在 一 起 的 操作 。 也 可 以 将 它们 理解 为 用 来 存储 一 系列 相关 数据 的 集合 。 
通过 本 章 的 学 习 ， 需 要 掌握 : 
口 ”列表 及 其 操作 。 
字典 及 其 操作 。 
元 组 及 其 操作 。 
什么 是 排序 和 查找 。 
冒 泡 排序 算法 。 
-分 查找 算法 。 
理解 算法 分 析 。 


DoOoOOOO DO 


4.1 列 表 


列表 是 Python 中 的 内 置 对 象 ， 它 是 Python 中 最 灵活 的 有 序 集合 对 象 。 它 有 些 功能 和 
之 前 提 到 的 字符 串 类 型 很 像 ， 但 比 字 符 串 要 灵活 得 多 。 列 表 可 以 包含 任何 种 类 的 对 象 ， 不 
管 是 数字 、 字 符 串 甚至 是 另外 几 个 列表 。 同 时 ， 列 表 和 字符 串 有 着 本 质 的 不 同 ， 它 是 可 变 
对 象 ， 我 们 可 以 通过 指定 偏 移 值 和 分 片 ， 列 表 方 法 调用 以 及 删除 语句 等 方法 来 实现 在 原 处 
修改 列表 的 操作 。 

接 下 来 先 通过 一 个 关于 分 类 加 法 计数 (人 教 版 高 中 数学 选修 2-3) 的 程序 来 了 解 
一 些 关 于 列表 的 简单 操作 。 这 个 程序 是 计算 从 北京 到 上 海 一 共有 多 少 种 不 同 的 走 法 
〈 见 图 4.1) 。 
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火车 3 
图 4.1 分 类 加 法 图 解 
显 序 分 为 两 段 ， 第 一 段 将 不 同 的 走 法 存 入 一 个 列表 中 ， 第 二 段 将 所 有 走 法 都 展示 给 用 
户 〈 将 项 从 列表 中 取出 ) 。 有 具体 程序 如 程序 4.1 所 示 。 
程序 4.1 计算 北京 到 上 海 的 走 法 : 
list=[] 


for iin range(4): 
list.append("Airplane_{0}".format(i+1)) 


for iin range(3): 
list.append("Train {0}".format(i+1)) 


ra 


print("The num of the way from Beijing to Shanghai is : {0}".format(len(list))) 
9: 

10: foriin list: 

MM: print(?) 


输出 : 


the num of the way from Beijing to Shanghaiis :7 
Airplane 1 
Airplane 2 
Airplane 3 
Airplane 4 


Train 1 
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Train 2 
Train 3 


分 析 : 

由 分 类 加 法 计数 原理 : 若 完 成 一 件 事 有 两 类 不 同 的 方案 ,其 中 第 一 类 方案 中 有 m 种 不 
同 的 方法 , 第 二 类 方案 中 有 n 种 不 同 的 方法 , 那么 完成 这 件 事 一 共有 N=m+n 种 不 同 的 方 
法 。 从 北京 到 上 海 的 走 法 数 即 飞机 和 火车 这 两 类 方案 的 方法 总 和 。 

下 面 回 到 程序 中 , 由 于 我 们 在 第 3 行 的 循环 中 直接 使 用 了 list 的 append() 方 法 ,所 以 在 
用 之 前 要 声明 一 下 list 是 一 个 列表 ， 如 程序 的 第 1 行 所 示 。 我 们 使 用 “[] ”表示 一 个 空 列表 
并 赋值 给 list。 声 明 列表 之 后 ， 使 用 刚刚 提 到 的 append() 方 法 并 放 在 循环 中 。 使 用 两 个 循环 
将 北京 到 上 海 的 走 法 附加 到 列表 list 中 。 

append() 方 法 将 项 插入 列表 尾 ,注意 列表 的 索引 值 同 字符 串 相同 ,都 是 从 0 开始 的 。 程 
序 的 第 8 行 ， 使 用 一 个 len 函数 输出 list 的 长 度 ， 由 上 文 的 分 类 加 法 可 知 ，list 的 长 度 就 是 
方法 总 和 即 要 求 的 方法 数 。 最 后 ， 我 们 来 看 第 10 行 的 for 循环 ， 因 为 列表 是 可 循环 对 象 ， 
所 以 可 以 直接 使 用 for…in 语句 遍历 列表 的 所 有 元 素 ， 将 每 项 输出 。 

通过 程序 4.1， 是 不 是 对 列表 有 了 一 定 了 解 ? 接 下 来 我 们 列 出 一 些 关 于 列表 的 常用 操 
作 ， 这 些 都 是 很 有 代表 性 的 操作 ， 如 表 4.1 所 示 。 


表 4.1 常用 的 列表 操作 


序号 操作 解释 
1 雍 = 上 0 定义 一 个 空 的 列表 
2 L=[0, 1,2 定义 一 个 项 为 数字 0.1,2 的 列表 


定义 一 个 项 为 字符 串 、 列 表 的 列表 。 注 意 列表 中 含有 列表 的 情况 ， 不 
管 列表 中 含有 什么 ， 它 们 都 是 当前 列表 的 项 

4 L = list('list" 使 用 list 函数 定义 列表 ， 同 语句 工 = [了 ,六 ,'s', 含义 一 样 

5 工 =jlist(range(-1,3)) ”| 使 用 list 函数 定义 列表 ， 同 语句 工 = [-1,.0, 1, 2] 含 义 一 样 


3 工 = [abc, [def,'ghi]] 


切片 语句 (这 个 操作 和 字符 串 的 很 像 》， 返 回 列表 的 第 i 项 。 注 意 若是 


6 LL] 提取 像 序号 3 操作 中 的 索引 为 1 的 项 ， 提 取出 的 还 是 个 列表 ， 那 么 对 
于 这 个 项 ， 可 以 用 L[1][1] 提 取 列 表 中 的 列表 的 第 2 项 

7 3inL 3 是 否 是 列表 工 中 的 项 ， 返 回 一 个 布尔 值 

8 二 本 汉 返回 值 为 列表 内 容 乘 以 3， 但 还 是 一 个 列表 


9 len(D) 返回 列表 的 长 度 
10 LI1+I2 返回 将 列表 工 1 的 内 容 和 列表 L2 的 内 容 相 加 的 列表 
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续 表 
序号 操作 解释 
11 L[]=X 将 列表 工 中 索引 为 i 的 项 重新 复制 为 对 象 X 
六 po 移 除 列表 工 中 的 元 素 (默认 为 最 后 一 个 ) 并 返回 该 元 素 的 值 。 也 可 以 
使 用 工 .pop(index) 来 删除 索引 值 为 mdex 的 值 
13 L.append(X) 将 对 象 义 添加 到 列表 尾 
14 | L.extend([10, 22, 44]) | 将 列表 [10, 22, 44] 一 次 性 追加 到 列表 尾 
5 L.insert(i, X) 将 对 象 X 添加 到 列表 工 索引 值 为 i 的 地 方 
16 L.count(X) 返回 对 象 久 在 列表 中 出 现 的 次 数 
7 L.remove(X) 移 除 列表 工 中 与 对 象 X 匹配 的 第 一 个 项 
18 del Li] 删除 列表 工 中 索引 为 i 的 项 
19 del L[i:j] 删除 列表 工 中 [ij] 所 指定 的 项 
下 面 再 简单 介绍 下 关于 表 4.1 的 一 些 知 识 点 。 表 中 的 LL、L1、L2 表示 已 经 定义 好 的 
列表 ， 如 果 要 使 用 列表 的 操作 的 话 一 定 要 先 声 明 ， 否 则 会 报错 。 表 中 使 用 i 作为 列表 的 
索引 值 ， 一定 记 住 列表 的 索引 值 是 从 0 开始 的 ，X 表示 某 一 对 象 ， 它 可 以 是 任何 类 型 的 


数据 。 


若是 对 表 中 的 某 些 操作 还 不 理解 ， 可 以 在 PyCharm 中 定义 一 个 列表 并 对 它 操 作 ， 使 用 
print(L) 可 以 将 整个 列表 内 容 输出 。 

接 下 来 再 通过 一 个 例子 练习 一 下 列表 的 操作 ， 假 设 有 列表 ['a b', 'e', tu 'q 'e', 'p', 'e', 
中 ]， 其 中 有 些 项 是 重复 的 ， 我 们 要 使 用 程序 将 重复 项 剔除 。 

程序 4.2 ”除去 列表 中 的 重复 项 : 


re_list=[] 


for iin list: 


em 


print(re_list) 


输出 : 


[De 


if notiin re_list: 
re_list.append(1) 


list= [av be ud es 'p', 'e', "b'] 
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分 析 : 
这 个 程序 的 步骤 比较 明了 ， 在 遍历 list 的 同时 我 们 使 用 一 个 逊 语句 过 滤 掉 重复 出 现 的 
项 ， 最 后 将 不 包含 重复 项 的 新 列表 输出 。 


4.2 字 典 


字典 就 像 它 的 名 字 一 样 ， 我 们 知道 了 关键 字 ， 就 可 以 在 字典 里 找到 与 关键 字 匹 配 的 更 
多 详细 信息 。 字 典 在 Python 中 是 由 一 系列 键 - 值 对 组 成 的 ， 将 键 (keys) 与 值 (values) 关 
联 到 一 起 。 注 意 ， 字 典 中 的 键 必 须 是 唯一 的 ， 而 且 ， 虽 然 键 并 不 指定 必须 使 用 哪 种 类 型 ， 
但 是 我 们 只 能 使 用 不 可 变 对 象 作为 键 〈 如 字符 串 ) 。 对 于 字典 中 值 的 类 型 ， 并 没有 什么 要 
求 ， 我 们 可 以 根据 具体 约束 选用 可 变 或 是 不 可 变 的 对 象 。 

如 果 说 列表 是 有 序 对 象 的 集合 ， 那 么 字典 就 是 无 序 对 象 集合 。 这 种 特性 导致 字典 中 元 
素 需 要 通过 键 来 存 取 ， 而 不 能 像 列表 那样 通过 偏 移 存 取 。 

接 下 来 ， 通 过 化 学 课 上 学 的 元 素 周期 表 〈 见 图 4.2) 来 看 看 字典 的 具体 操作 。 


4.2 元 素 周 期 表 
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化 学 元 素 周期 表 对 大 家 来 说 是 很 熟悉 的 ， 我 们 在 初中 就 接触 过 。 

在 这 里 我 们 使 用 程序 创建 一 个 字典 ， 字 典 中 只 存 有 元 素 周期 表 中 的 前 5 个 元 素 。 将 元 
素 的 化 学 符号 作为 字典 的 键 ， 元 素 名 称 作为 值 。 具 体 程 序 如 程序 4.3 所 示 。 

程序 4.3 ”元 素 周期 表 : 
element = {'H': 'Hydrogen', 'He': 'Helium,', Li': Lithium', 'Be': 'Beryllium,', 'C': 'Carbon'} 


del element['C'] 
element['B'] = 'Boron' 


print(element['H']) 


for item in element.items(): 
print(item) 


A 


输出 : 

Hydrogen 

(H, Hydrogen) 

(He, ‘Helium') 

CLi Lithium’) 

(‘Be', 'Beryllium') 

('B', 'Boron') 

分 析 : 

程序 的 第 1 行 ， 我 们 使 用 : d = {key_1 : valuel, key 2 : value2} 这 种 形式 来 制定 键 值 和 
值 。 注 意 ,， 键 值 与 值 之 间 用 “:” 分 开 ，, 每 个 元 素 ( 一 组 键 值 和 值 ) 使 用 “,” 区 分 ,最 后 将 
所 有 内 容 套 在“{}” 中 构成 一 个 字典 。 

通过 图 4.2 的 元 素 周期 表 , 可 以 看 到 字典 element 中 元 素 的 顺序 不 对 , 我们 在 第 3 行 删 
除 键 值 C 和 与 其 对 应 的 值 。 删 除 之 后 ， 在 第 4 行 添加 键 值 B 和 值 Boron， 添 加 完 后 ， 元 素 
周期 表 的 前 5 项 已 经 在 element 中 构建 完成 。 

完成 字典 的 构建 之 后 ， 来 看 看 如 何 输出 字典 的 项 。 我 们 在 程序 的 第 6 行 ， 指 定 输出 键 
值 为 HH 的 值 ， 即 输出 结果 的 第 1 行 。 最 后 ， 使 用 一 个 for…in 语句 迭代 输出 字典 中 的 每 组 
值 。 对 于 这 个 迭代 语句 我 们 要 注意 的 是 element.items() 语 名 中 的 items0 一 定 不 要 忘 了 , 如果 
不 加 这 项 ， 只 会 迭代 输出 字典 的 键 值 。 


。66 。 


人 了 


[智能 基础 教程 : Python 篇 ( 青 少 版 》 


表 4.2 中 列 出 了 一 些 具有 代表 性 的 字典 操作 。 


表 4.2 常用 的 字典 操作 


序号 操作 解释 
1 D={} 将 DD 声明 为 一 个 空 字典 
2 D= {'element: {B': 'Boron'") | 将 D 声明 为 一 个 字典 ， 并 将 字典 {'B': 'Boron'} 霸 套 到 DD 的 值 中 
通过 指定 键 值 创建 字典 D， 参 数 [a', 'b"] 是 键 值 列 表 ， 参 数 10 为 默 
认 值 。 其 中 键 值 列表 也 可 以 使 用 已 声明 的 列表 变量 或 是 元 组 变量 
| et 例如 ，D = tt 10)， 创 建 完成 后 的 D 
为 fa': 10, b': 10} 
可 以 先 简单 地 将 zip 函数 理解 为 将 键 值 和 值 组 合并 返回 一 组 有 序 
对 。keys 和 vals 可 以 是 列表 或 是 元 组 类 型 的 数据 。 例 如 : 
4 D = dict(zip(keys, vals)) keys= Las] 
vals= [11, 33,] 
D= dict(zip(keys, vals)) 
此 时 了 D 为 fa': 11,'b': 33} 
D = dict(H='Hydrogen', 字典 的 另 一 种 定义 方式 ， 同 使 用 D = {fH':Hydrogen'，He':Helium'} 
He='Heliun) 定义 是 一 样 的 
6 D[ILi] 返回 字典 D 中 键 值 Li 对 应 的 值 
名 keyinD 判断 键 是 否 在 字典 D 中 ， 键 在 字典 中 返回 True， 和 否则 返回 False 
8 D.keysO 以 列表 的 形式 返回 D 中 的 所 有 键 值 
9 D.values0 以 列表 的 形式 返回 D 中 的 所 有 值 
10 DitemsO0) 以 列表 的 形式 返回 D 中 可 遍历 的 元 素 〈 键 值 和 其 对 应 的 值 ) 
复制 字典 D 并 赋值 给 D_1。 注 意 : 复制 操作 与 将 D 赋值 给 某 字典 
11 D 1=D.copyO 操作 不 一 样 ， 赋 值 操作 是 一 种 引用 ， 而 复制 操作 完成 后 ， 改 变 字典 
D 的 值 不 会 对 D_1 造成 影响 
返回 字 1 与 键 秆 应 项 的 1 指定 芯 EE | 
让 D.get(key, default) i 人 如 果 指 定 的 键 值 在 D 中 
13 D.update(E) 将 字典 下 中 的 元 素 〈 键 值 与 其 对 应 的 值 》 添 加 到 字典 D 中 
14 D.pop(key) 将 字典 中 与 键 值 (key) 匹配 的 元 素 删除 并 返回 与 该 键 值 对 应 的 值 
1 len(D) 返回 字典 中 元 素 的 个 数 
16 D[key] = 42 通过 指定 字典 D 中 的 键 值 (key) 更 新 该 键 值 对 应 的 值 
到 del D[42] 通过 指定 字典 D 中 的 键 值 (key) 删除 该 键 值 所 在 元 素 
18 list(D keysO) 以 列表 的 形式 返回 字典 D 中 的 所 有 键 值 
19 | D= kk:le2 forkinrange()} | 通过 for 循 环 便捷 地 定义 一 个 字典 , 生成 的 字典 D 为 {0: 0, 1: 2, 2: 4, 3: 6} 
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对 于 表 4.2， 每 个 操作 都 对 应 着 一 个 解释 ， 若 是 对 表 中 的 某 些 操作 还 不 理解 ， 可 以 在 
PyCharm 中 定义 一 个 字典 并 对 它 操作 ， 使 用 print(D) 即 可 输出 各 项 内 容 。 

在 这 里 我 们 对 表 4.2 再 多 说 几 句 。 表 中 使 用 D、D_1、E 代表 字典 ，key 表示 字典 中 的 
键 值 ，keys 和 vals 代表 已 经 声明 完成 的 键 、 值 列表 〈 或 是 元 组 ) 。 

注意 : 

字典 也 是 一 种 很 灵活 的 工具 ， 下 面 是 使 用 字典 的 注意 事项 。 

(1 ) 字典 是 一 种 映射 机 制 ， 一 定 要 注意 ， 它 不 是 序列 ， 也 没有 顺序 的 概念 ， 所 以 不 要 
对 字典 使 用 类 似 字符 串 和 序列 的 那 种 切片 操作 。 

(2 ) 键 不 一 定 总 是 字符 串 。 在 例子 中 我 们 使 用 了 大 量 的 字符 串 作 为 键 值 ， 其 实 任何 不 
可 变 对 象 都 可 以 作为 字典 的 键 。 例如， 使 用 整数 作为 键 值 。 


4.3 元 组 


元 组 是 由 简单 的 对 象 构成 的 , 它 和 列表 非常 相似 , 但 一 定 要 注意 的 是 元 组 是 不 可 变 的 ， 
它 不 支持 任何 方法 的 调用 。 也 就 是 说 我 们 不 能 编辑 或 改变 元 组 。 

关于 元 组 的 操作 有 很 多 和 之 前 介绍 的 列表 操作 相 类 似 ， 这 里 用 程序 结合 程序 的 输出 来 
看 看 具体 如 何 操作 。 详 细 见 程序 4.4 及 其 分 析 。 

程序 4.4: 


tl=(0) 

世 = (0,"tuple, 17.1) 

{3=0, tuple', 17.1 

t4= ("abe', (listvdictionary)) 
t5 = tuple('spam') 


print(t2) 
print(t3) 

9: print(t4[1][1) 
10: print(len(t3)) 

11: print(tl + {2) 

12: print(tl * 3) 

13: print(‘tuple' in {2) 
14: print(tl.count(0)) 


oe 
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15: print(t3.index(17.1)) 
16: print(list(t2)) 


18: forxint3: 
19: print(x) 
输出 : 


(0, tuple', 17.1) 
(0, ‘tuple’, 17.1) 
dictionary 

3 

(0, 0, tuple', 17.1) 
(0, 0, 0) 

True 

1 

入 

[0, ‘tuple', 17.1] 

0 

tuple 

内 | 

分 析 : 

我 们 先 来 看 看 程序 的 前 5 行 , 每 行 都 定义 了 一 个 元 组 。 在 第 1 行 中 即使 只 有 一 个 元 素 ， 
也 要 加 上 ','， 否 则 不 能 被 视 为 元 组 。 再 看 看 第 2、3 行 , 通过 输出 结果 的 第 1、2 行 可 知 它们 
的 作用 是 一 样 的 ， 即 使 第 3 行 没 有 用 括号 将 元 素 括 起 来 。 由 于 刀 使 用 了 嵌 套 ,可 以 使 用 第 
9 行 的 取 值 方式 操作 内 套 的 内 容 ， 注 意 ， 我 们 不 能 更 改元 组 中 的 内 容 (若是 更 改元 组 的 内 
容 会 引发 TypeError: 'tuple' object does not support item assignment ) 。 

程序 的 第 5 行使 用 了 tuple 函数 将 一 个 字符 串 类 型 转 成 元 组 , 若是 将 函数 的 参数 改 为 列 
表 ， 它 也 可 以 将 这 个 列表 转 为 元 组 。 

继续 看 程序 的 第 10~14 行 , 这 些 操 作 都 是 在 前 几 个 类 型 中 很 常见 的 操作 了 , 这 里 不 再 
多 说 。 第 15 行使 用 元 组 的 index() 方 法 ， 它 可 以 返回 参数 在 元 组 中 的 索引 值 。 注 意 ， 若 参数 
不 在 元 组 中 将 报 出 一 个 ValueError。 

通过 输出 结果 的 第 10 行 可 知 ， 程 序 的 第 16 行 中 的 list(t2) 可 以 将 元 组 转换 成 列表 并 返 
回 。 因 为 元 组 也 是 可 和 迭代 对 象 ， 我 们 在 程序 的 最 后 使 用 for…in 循环 输出 元 组 的 项 。 
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为 什么 需要 元 组 ? 


学 习 列 表 和 字典 后 ， 再 学 习 元 组 可 能 觉得 它 没有 使 用 的 必要 ， 为 什么 有 了 列表 还 需要 
元 组 ? 其实 这 正 是 因为 元 组 特有 的 特性 : 不 可 变性 。 这 种 特点 提供 了 一 种 完整 性 ， 它 可 以 
保证 元 组 所 在 处 不 会 被 程序 修改 ， 这 正 是 列表 不 具备 的 ， 而 且 这 使 得 元 组 还 可 以 作为 字典 
的 键 值 。 总 之 ， 元 组 可 以 处 理 那 些 固定 关系 的 问题 。 


接 下 来 再 用 一 个 列子 巩固 一 下 之 前 讲 过 的 内 容 。 假 设 我 们 已 经 得 到 一 篇 小 短文 中 的 某 
7 个 单词 的 出 现 次 数 ， 需 要 根据 这 个 次 数 找到 出 现 次 数 最 多 的 单词 ， 接 下 来 看 看 在 Python 
中 是 如 何 实现 的 。 有 具体 程序 如 程序 4.5 所 示 。 
旺 序 4.5 ”找到 出 现 最 多 次 的 项 : 
max value=0 
words = {T: 4, 'He': 5, let: 9, 'be': 2, 'what': 3, ‘how':2, 'the':7} 
for item in words.items(): 
ifitem[1] > max_value: 
max_value = item[1] 
word = item[0] 


re 


print("The most appeared word is : {}".format(word)) 


The most appeared word is : let 


分 析 : 

在 程序 中 我 们 使 用 了 一 个 for 循环 遍历 字典 ,使 用 item 获取 一 组 键 - 值 ， 但 是 ， 要 注 
意 的 是 item 是 一 个 元 组 类 型 的 变量 ,就 拿 第 一 次 循环 来 说 ,item 的 值 为 (T, 4)。 这 是 为 了 
防止 我 们 在 使 用 字典 的 过 程 中 修改 了 字典 内 容 并 导致 程序 产生 错误 。 因 此 ， 可 以 使 用 元 
组 加 下 标的 方式 使 用 item 中 的 值 用 于 比较 ， 在 这 个 过 程 中 一 定 要 注意 的 是 不 能 改变 元 组 
的 内 容 。 在 循环 的 过 程 中 ， 我 们 使 用 让 语句 来 选 出 最 大 值 ， 并 使 用 word 保存 最 大 值 对 应 
的 键 。 最 后 将 变量 word 输出 。 程 序 流程 图 如 图 4.3 所 示 。 
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定义 


max_value:words 


一 Next item “> 


True 
| 一 False 
False 
No more item 
True 
max_value=item.value 


Word=item.key 


输出 word 


图 4.3 程序 流程 图 
4.4 ”排序 与 查找 


学 习 完 列表 、 字 典 和 元 组 后 ， 我 们 趁 热 打铁 ， 学 习 一 下 排序 与 查找 的 算法 。 

排序 和 查找 是 在 实际 工程 中 很 常见 的 操作 ， 它 们 有 很 多 经 典 的 方法 。 排 序 的 目的 
是 让 数据 能 够 以 更 有 意义 的 形式 表现 出 来 ， 而 查找 的 意义 是 在 一 个 数据 集中 找到 元 素 
的 位 置 。 这 两 个 内 容 可 能 有 点 难度 ， 在 这 里 我 们 不 进行 深入 讲解 ， 只 对 冒 泡 排序 和 二 
分 查找 这 两 个 比较 简单 的 算法 来 细 谈 。 在 完成 这 两 个 算法 的 学 习 后 ， 将 顺势 引出 算法 
复杂 度 的 概念 。 
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4.4.1 冒 泡 排序 


冒 泡 排序 是 一 种 较为 简单 的 排序 算法 ， 它 会 重复 地 访问 要 排序 的 数列 ， 每 次 都 比较 两 
个 元 素 ， 若 是 发 现 顺 序 有 误 就 将 它们 交换 过 来 。 由 于 这 个 排序 算法 会 很 形象 地 将 元 素 慢 慢 
浮 起 〈 不 断 地 两 两 交换 )》 ， 因 此 称 为 冒 泡 排序 。 

下 面 用 一 个 例子 来 详细 说 明 一 下 ， 我 们 构建 一 个 乱 序 的 化 学 元 素 列 表 〈 用 元 素 在 周期 
表 中 的 序号 作为 排序 的 依据 ) [Cl 'B', K', 'O', P]， 为 了 便于 编程 ， 使 用 元 素 周 期 表 的 序号 
将 这 个 列表 抽象 为 [17, 5, 19, 8, 15]。 准 备 好 列表 后 ， 使 用 冒 泡 排序 将 这 个 列表 进行 升序 排 
列 。 在 给 出 具体 的 程序 之 前 我 们 先 用 图 4.4 展示 一 下 排序 过 程 。 


@ 
1 5 19 8 1 
1 地 19 8 1s 
pa 
FE] 17 19 8 15 
一 OA 


5 8 15 17 19 


图 4.4 冒 泡 排序 过 程 
图 4.4 中 只 给 出 了 大 致 过 程 ， 其 中 阴影 中 选 定 项 的 两 两 互 换 过 程 我 们 并 没有 给 出 。 在 
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图 中 的 每 行 阴影 选 定 的 项 ， 都 会 从 头 开始 和 同行 中 的 第 一 个 与 阴影 元 素 相 邻 的 非 阴 影 元 素 
比较 ， 顺 序 不 对 就 交换 。 直 到 所 有 阴影 元 素 都 比较 完 ， 排 序 才 完成。 
可 能 这 样 说 有 点 抽象 ， 接 下 来 给 出 具体 的 程序 ， 让 我 们 结合 程序 和 图 4.4 再 次 分 析 。 
程序 4.6 上 冒 泡 排序 : 


1 element = [17, 5, 19, 8, 15] 

2 

3 for i in range(len(element)): 

4: forj in range(i+1): 

if element[i] < element[j]: 

6 element[i], element[j] = element[j], element[i] 
i print(element) 


输出 : 
[5, 8, 15, 17, 19] 


分 析 : 

在 程序 中 我 们 使 用 了 两 个 for 循环 嵌 套 ， 外 层 循环 用 于 控制 图 4.4 中 右 侧 箭头 的 指向 。 
内 层 循 环 用 于 从 头 开始 不 断 选取 箭头 左边 元 素 与 外 层 所 选 的 元 素 比 较 ， 若 是 顺序 不 对 就 将 
元 素 值 调换 。 这 样 当 外 层 循环 结束 ， 整 个 序列 的 排序 工作 完成 。 


4.4.2 ”二 分 查找 


-分 查找 法 作用 于 一 个 有 序数 据 集合 上 。 首 先 要 查找 的 是 有 序 集 的 中 间 的 元 素 ， 如 果 
中 间 元 素 比 要 查找 的 元 素 大 ， 接 着 转向 较 小 的 半 集 中 进行 查找 ， 反 之 ， 若 中 间 元 素 比 要 碍 
元 素 小 ， 就 转向 较 大 的 那个 半 集 中 进行 查找 。 转 进 范 围 更 小 的 数据 集 后 重复 这 个 查找 过 程 ， 
直到 找到 要 碍 的 元 素 或 数据 集 不 能 再 分 割 。 

经 过 上 面 对 二 分 查找 的 描述 ， 我 们 对 这 个 算法 已 经 有 所 了 解 ， 二 分 查找 法 实质 上 
就 是 不 断 地 将 有 序数 据 集 进行 对 半分 割 ， 并 检查 分 区 中 的 中 间 元 素 。 上 一 小 节 中 介绍 
了 冒 泡 排序 ， 正 好 可 以 使 用 冒 泡 排 序 的 输出 ， 也 就 是 那个 排 好 序 的 化 学 元 素 列表 [5, 8， 
15, 7 19 

假设 想 要 知道 氧 元 素 在 列表 中 的 索引 号 ， 我 们 可 以 使 用 二 分 查找 法 来 查找 。 下 面 ， 先 
来 看 看 二 分 查找 法 是 如 何 作用 在 这 个 有 序 的 化 学 元 素 列 表 上 的 。 详 细 过 程 如 图 4.5 所 示 。 
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mid 


ei 8 3 17 19 


0 二 
low high 
mid 
由 
5 8 15 17 19 
全 个 
low high 
mid 
| 5 | 8 15 | 17 i9 
他 全 


low high 
图 4.5 使 用 二 分 查找 搜索 


图 4.5 中 的 low 和 high 是 用 来 控制 查找 元 素 的 两 个 边界 值 ， 它 们 圈 起 来 的 数据 就 是 用 
于 当前 查找 的 数据 集 ，mid 表示 的 是 low 和 high 之 间 的 中 间 值 。 接 下 来 看 看 程序 具体 是 如 
何 操作 的 ， 如 程序 4.7 所 示 。 

旺 序 4.7 ”二 分 查找 : 


element = [5, 8, 15, 17, 19] 
val=8 
low=0 
high = len(element) - 1 
trace = False 
while low <= high: 
mid = (low + high) // 2 
if element[mid] == val: 
多 trace = True 
10: break 
a: elif element[mid] > val: 
12。 high=mid - 1 
LE else: 
14: low=mid+1 


So 


16: iftrace: 
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7: print("Find,the index of {0} is {1}".format(val, mid)) 
18: else: 

19: print("No element {0}".format(val)) 

输出 : 

Find,the index of 8 is 1 

分 析 : 


从 程序 中 可 以 看 出 ,我 们 将 low 和 high 分 别 设置 为 列表 索引 0 和 len-1, 在 每 次 的 while 
循环 中 将 mid 设置 为 low 和 high 的 中 间 值 ， 若 mid 所 指定 的 元 素 (element[mid] ) 比 目 标 
值 小 ， 将 low 移动 到 mid 后 的 元 素 位 置 上 ， 以 此 来 更 新 搜索 区 间 。 同 理 ， 若 mid 所 指定 的 
元 素 比 目标 元 素 值 大 ， 将 high 更 新 到 mid 的 前 一 个 元 素 上 。 

随 着 循环 不 断 推进 ,low 从 左 向 右 移 , high 从 右 向 左 移 ,， 当 mid 处 找到 目标 时 , 将 trace 
标记 为 True 并 跳出 循环 。 如 果 目 标 一 直 没 找到 ， 那 low 和 high 的 指向 将 会 重合 并 退出 循 
环 。 这 个 过 程 也 正 是 图 4.5 所 展示 的 。 


4.5 小 酌 算法 分 析 


关于 算法 分 析 其 实 是 一 个 偏 后 期 的 话题 ， 相 对 于 之 前 介绍 的 内 容 这 一 部 分 较为 抽象 ， 
在 这 里 我 们 只 对 其 进行 一 些 简单 的 理论 介绍 。 本 书 中 不 管 是 示例 的 程序 还 是 练习 的 程序 ， 
规模 都 非常 小 ， 每 次 运行 的 时 候 都 是 很 快 就 出 现 结果 ， 有 些 时 候 甚至 是 “ 秒 出 ”， 这 是 因 
为 现在 计算 机 技术 的 快速 发 展 ， 即 使 是 个 人 计算 机 也 有 着 相对 可 观 的 计算 能 力 ， 但 是 ， 这 
并 不 能 改变 运行 程序 时 会 消耗 资源 的 事实 。 

在 实际 编程 中 ， 不 管 是 设计 还 是 应 用 一 种 算法 ， 我 们 都 要 了 解 这 种 算法 的 性 能 如 何 。 
通常 在 衡量 一 个 算法 的 性 能 时 关心 的 是 对 CPU 和 内 存 的 使 用 效率 ， 但 是 由 于 CPU 是 计算 
机 中 最 为 珍贵 的 资源 ， 我 们 还 是 以 CPU 的 使 用 率 为 主 ， 它 体现 在 算法 上 便 是 算法 的 运算 速 
度 ， 用 一 个 专业 的 词 便 是 算法 的 时 间 复 杂 度 。 相 应 地 ， 如 果 是 估计 程序 需要 的 存储 空间 ， 
要 考虑 的 便 是 空间 复杂 度 。 


4.5.1 时 间 复 杂 度 
由 于 不 能 对 每 个 算法 都 上 机 测试 ， 我 们 使 用 算法 中 语句 的 执行 次 数 对 算法 进行 估算 ， 
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哪个 算法 中 语句 执行 次 数 多 ， 它 花费 时 间 就 多 。 同 时 ， 我 们 将 算法 中 的 语句 执行 次 数 称 为 
时 间 频 度 ， 记 为 Tln)， 其 中 表示 语句 的 规模 。 

有 了 Tn) 之 后 ， 又 出 现 一 个 问题 ， 我 们 不 知道 随 着 处 理 数据 量 的 增长 它 的 变化 会 呈现 
出 什么 规律 , 因此 引入 辅助 函数 ftn) 的 概念 , 它 和 7T(n) 是 同一 量 级 的 , 同时 , 使 用 符号 OOn)) 
来 蔡 代 T(n)，O0tn)) 这 种 形式 也 被 称 为 O 表示 法 。 这 样 我 们 就 可 以 使 用 函数 分 析 的 手段 较 
为 准确 地 分 析 时 间 频 度 T(n)， 并 以 此 来 计算 时 间 复 杂 度 。 


4.5.2 ”OO 〇 表示 法 的 简单 规则 


由 于 有 些 运行 处 理 对 于 当前 算法 来 说 影响 太 小 了 ,我 们 对 其 选择 忽略 ， 具体 的 规则 
如 下 : 
(1) 常数 项 使 用 O(1) 表 示 。 
(2) 高 阶 因 子 和 低 阶 因子 并 存 ， 只 保留 高 阶 因子 。 
(3) 如 果 最 高 阶 项 存在 并 且 不 是 常数 项 ， 则 去 除 它 的 系数 。 
对 于 上 述 的 这 些 规 则 下 面 使 用 一 些 代 码 段 进行 详细 分 析 。 


4.5.3 算法 分 析 示 例 


常 阶 数 例子 : 

=.0 

y=0.5 

result=x/y 

print(result) 

上 述 一 共 4 条 语句 ， 但 是 根据 规则 (1) ， 它 的 时 间 复 杂 度 为 0(1)， 我 们 称 之 为 常 阶 数 
项 。 具 体 来 说 ， 因 为 每 条 语句 规模 都 是 常数 级 的 ， 这 决定 了 它们 整体 是 常数 级 的 ， 就 算 有 
10 条 ，100 条 这 样 的 语句 也 是 常数 级 的 ， 时 间 复 杂 度 不 会 变 。 

线性 阶 例子 : 

for i in range(n): 


print('hello world) 


因为 循环 体 中 的 时 间 复 杂 度 为 0(1) 的 代码 执行 了 n 次 ， 这 段 代码 的 规模 是 由 的 个 数 
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决定 的 ， 因 此 ， 它 的 时 间 复 杂 度 为 O(n)。 

平方 阶 例子 : 

for i in range(n): 

for j in range(n): 
print(hello world) 

由 于 这 段 代 码 中 内 层 循环 的 次 数 是 由 外 层 决 定 的 ， 因 此 ， 它 的 时 间 复 杂 度 不 能 简单 地 设 
为 好 2， 但 是 我 们 可 以 对 其 推导 ， 代 码 中 的 输出 语句 执行 次 数 为 : n+(n-1)+(n-2)+(n-3)+…+1。 
用 等 差 数列 求 和 得 到 其 值 为 x/2+n/2。 根 据 规则 (2〉 和 规则 (3〉 可 得 时 间 复 杂 度 为 O(n”)。 


4.5.4 常见 复杂 度 及 其 比较 
F 面 来 看 看 常见 的 算法 复杂 度 及 其 例子 ， 具 体内 容 如 表 4.3 所 示 。 
表 4.3 常用 的 算法 复杂 度 


记号 名 

1 从 一 个 数据 集中 获取 第 一 个 元 素 

将 数据 集 分 为 两 堆 ， 然 后 将 分 好 的 部 分 再 分 半 ， 以 此 类 扒 

3 O(n) 遍历 一 个 数据 集 

4 在 做 序号 7 的 工作 的 同时 遍历 分 出 来 的 每 一 半数 据 

5 遍历 一 个 数据 集中 的 每 个 元 素 的 同时 遍历 另 一 个 同 数量 级 的 数据 集 

6 为 一 个 数据 集 生成 其 可 能 的 所 有 子 集 

7 给 数据 集 生成 所 有 的 排列 组 合 

当 我 们 得 到 一 个 已 知 的 情况 的 算法 复杂 度 OVtm)) 时 ， 使 用 数学 曲线 即 可 对 其 进行 

分 析 ， 假设 现在 要 对 两 种 已 知 的 算法 复杂 度 O(n”) 和 O(n lg nm) 进 行 分 析 ，, 其 中 自 变量 为 
n 也 就 是 算法 的 规模 ， 因 变量 为 OVtn)) 或 是 T(n)， 先 来 看 它们 的 函数 曲线 图 ， 如 图 4.6 
所 示 。 
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川 一 nlg(n) 
350 F< 证 


2.5 50 75 100 125 150 17.4 200 
图 4.6 算法 对 应 辅助 函数 曲线 图 
通过 图 4.6 可 以 看 到 , 问题 规模 ( 横 轴 数据 ) 在 0 一 20 时 , 复杂 度 O(n”) 会 远大 于 O(n lg 四， 
因此 ， 如 果 其 他 情况 相同 ， 我 们 选择 复杂 度 为 O(n lg n) 的 算法 。 
4.6 趣味 练习 


本 章 的 趣味 练习 要 继续 讲解 第 2 章 中 使 用 过 的 eval 函数 ， 先 来 看 程序 4.8。 


里 序 4.8: 
1: -import turtle 
2:  t=turtlePen0 
3: turtle.bgcolor("black") 
4: 
5: name str="['Leo', Lily','Tom', 'Alex','Max']" 
6: name list=eval(name str) 
7: colors=["yellow","green", "white", "brown", "gray"] 
8: 
9: forx inrange(150): 
10: t.pencolor(colors[x % len(name list)]) 
I tpenupO 
jk t.forward(x*4) 
3 tpendownO 
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14: t.write(name list[x % len(name list)], font=(Arial', int((x+4)/4))) 
15: t.left(360/len(name list) + 3) 


输出 ， 如 图 4.7 所 示 : 


区 


一 2 


| 


Tom 


om 


n T 
Tom Tom 


图 4.7 程序 4.8 输出 结果 

点 睛 : 

程序 的 第 3 行 ，turtle -bgcolorO 用 来 设置 画布 的 颜色 。 第 6 行使 用 eval 函数 将 整个 字符 
串 直 接 读 成 列表 ， 此 时 的 name list 的 值 为 [Leo', 'Lily', 'Tom', 'Alex', "Max']， 它 是 一 个 列表 ， 
同时 ,我 们 还 可 以 用 eval 函数 将 字符 串 中 的 字典 或 元 组 转换 为 用 于 程序 处 理 的 字典 或 元 组 。 

程序 的 第 11 行 和 第 13 行 的 现实 意义 为 画 画 的 提 笔 和 落笔 动作 ， 它 在 程序 中 的 作用 为 
将 移动 时 的 线条 去 除 掉 。 程 序 中 的 t.write 表示 在 画布 中 写 下 信息 ， 参 数 font=('Arial', 
int((x+4)/4)) 表 示 要 写 下 信息 的 字体 名 和 字号 。 

趣味 一 刻 : 

如 果 将 程序 的 第 15 行内 容 改 为 tleft(540/len(name lisb + 3)， 会 有 什么 效果 呢 ? 
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4.7 总 结 


本 章 我 们 学 习 了 Python 中 很 关键 的 3 个 数据 类 型 : 列表 、 字 典 和 元 组 。 学 习 完 这 3 个 
数据 类 型 之 后 又 简单 地 介绍 了 排序 和 查找 算法 。 

列表 、 字 典 和 元 组 都 是 Python 中 很 常用 的 知识 ， 需 要 我 们 尽快 地 掌握 ， 这 对 于 今后 编 
写 Python 程序 是 至 关 重 要 的 。 关 于 排序 和 查找 ， 这 其 实 是 一 个 比较 大 的 知识 块 ， 我 们 只 是 
对 其 中 很 简单 的 两 个 算法 进行 了 介绍 ， 和 希望 大 家 可 以 熟练 地 使 用 。 


4.8 练 习 


(1) 观察 下 列 程序 ， 分 析 它 的 输出 是 什么 ， 为 什么 ? 
element = {'H': 'Hydrogen', 'He': Helium' Li': Lithium', 'Be': 'Beryllium', 'C': 'Carbon'} 
tuple = (0, 'tuple', 17.1) 
print(list[1]) 
Print(tuple[2]) 
print(element[1]) 
(2) 我 们 能 使 用 冒 泡 排序 算法 将 元 组 中 的 数 变 为 升序 吗 ? 为 什么 ? 
(3) 用 字典 模拟 一 个 列表 ， 模 拟 内 容 为 元 素 周期 表 中 的 前 10 项 。 
披 荆 斩 蒜 ( 选 做 ) : 
编写 程序 对 列表 [15, 11, 55, 88, 99, 47, 19, 11, 65, 1, 20, 84, 33] 排序 ， 并 查找 有 序 表 中 
值 为 47 的 元 素 位 置 。 对 程序 做 出 简单 的 分 析 。 
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文件 是 计算 机 中 具 特 定 标识 的 存储 区 ， 它 由 操作 系统 管理 ， 用 于 计算 机 操作 系统 的 使 
用 过 程 中 的 各 项 操作 的 支持 。 本 章 将 讲解 如 何 使 用 Python 操控 计算 机 中 的 文件 ， 通 过 本 章 
的 学 习 ， 需 要 掌握 : 

口 ” 如 何 从 文件 中 读 取 数 据 。 

口 ” 如 何 向 文件 中 写 入 数据 。 

口 大 数据 文件 处 理 思想 。 


5.1 文件 及 其 操作 


对 于 文件 大 家 都 不 陌生 ， 但 是 在 接触 到 计算 机 的 文件 之 前 ， 我 们 通常 将 文件 定义 成 
内 容 的 载体 ， 如 公文 书信 或 是 有 关 政策 理论 等 方面 的 文章 。 计 算 机 文件 也 一 样 ， 它 是 存 
储 在 计算 机 存储 区 的 信息 集合 ， 这 些 信息 有 很 多 用 途 ， 有 的 是 用 来 支撑 程序 的 运行 ， 有 
的 是 单纯 用 于 存储 等 。 文 件 使 用 文件 扩展 名 指示 文件 类 型 ， 如 常用 的 JPEG 格式 的 图 像 文 
件 使 用 :jpg 文件 扩展 名 。 

由 于 我 们 将 大 段 的 待 处 理 信息 存储 在 文件 中 , 当 处 理 这 些 信 息 时 需要 通过 Python 来 调 
用 这 些 信 息 进 程序 ， 然 后 在 程序 中 对 其 进行 处 理 。 通 过 这 种 方式 使 得 程序 可 以 处 理 任何 指 
定位 置 的 文件 。 流 程 如 图 5.1 所 示 。 本 章 学 习 对 文件 的 操作 主要 是 写 信息 到 文件 和 从 文件 
中 读 取 信息 。 
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时 序 的 后 续 执 行 语 名 


图 5.1 程序 处 理 文件 内 信息 步骤 


S$.2 ”从 文件 中 读 取 数 据 


本 节 将 介绍 使 用 Python 程序 读 取 文 件 的 具体 方法 。Python 程序 想 要 使 用 计算 机 存储 区 
的 文件 时 ， 要 遵从 Python 文件 操作 的 规定 ， 依 顺序 进行 读 取 ， 若 是 可 以 随便 处 理会 使 文件 
内 容 变 得 很 不 安全 。 

简单 地 说 ， 想 要 在 Python 程序 中 读 取 文件 ， 先 要 使 用 Python 内 置 的 open 函数 通过 提 
供 文件 路 径 的 方式 将 文件 和 程序 链接 起 来 , 之 后 便 可 以 通过 操作 文件 对 象 的 方法 处 理 文件 。 
接 下 来 通过 程序 5.1 来 看 看 读 文件 操作 是 如 何 进 行 的 。 

程序 5.1: 
下 file = open('C:/Users/dell.dell-PC/Desktop/testfile.txt') 
2 while True: 
3 line = filereadline0 
4: if len(line) 一 0: 
有 break 
人 
2 print(line, end="") 
8 file.closeO 
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输出 : 


this is the first line 
and the second 
the end 


分 析 : 

程序 5.1 十 分 清晰 地 展现 了 文件 操作 中 打开 文件 ， 对 文件 操作 ， 关 闭 文件 的 步骤 。 程 
序 的 第 1 行 我 们 使 用 了 之 前 提 到 的 open 函数 建立 了 一 个 file 对 象 ,程序 的 第 3 行使 用 了 file 
对 象 的 readline 方法 按 行 读 取 文件 ， 当 再 次 调用 readline 时 会 自动 跳 到 文件 的 下 一 行 。 程 序 
的 第 8 行使 用 close 方法 将 文件 关闭 ， 其 实 这 个 操作 是 可 选 的 ， 因 为 Python 中 一 旦 对 象 不 
再 被 引用 ， 则 这 个 对 象 的 内 存 就 会 被 自动 回收 。 但 是 从 另 一 方面 来 说 ， 手 动 调用 没有 任何 
坏处 ， 并 且 ， 随 着 程序 越 做 越 大 ， 这 是 一 个 很 好 的 习惯 。 

上 面 是 一 个 很 简单 的 程序 ， 但 是 Python 给 我 们 提供 的 文件 操作 并 非 如 此 简单 。 表 5.1 
列 出 了 有 关 Python 读 取 文 件 中 的 其 他 常见 操作 。 


表 5.1 常见 的 读 取 文 件 操作 
人 解释 
path 指 文件 目录 ， 语 句 同 程序 5.1 的 第 1 行 ，"" 表 示 读 入 
将 这 个 文件 读 入 一 个 字符 申 
从 文件 当前 位 置 读 取 之 后 的 N 个 字 节 到 字符 中 
将 文件 按 行 读 到 列表 中 ， 程 序 5.1 中 的 文件 使 用 这 条 语句 list 的 
值 为 [this is the first line \n', 'and the second\n', 'the end'] 


选 代 一 行 行 地 读 取 
5.3” 写 数据 到 文件 


list = filereadlinesO 


上 一 节 中 学 习 了 读 文件 内 容 到 程序 ， 接 下 来 介绍 一 下 写 数据 到 文件 。 写 数据 的 顺序 其 
实 和 读 文件 差不多 ， 上 有 具体 为 建立 文件 链接 ， 写 数据 和 关闭 文件 。 下 面 通过 程序 5.2 来 看 看 
写 数据 到 文件 是 如 何 操 作 的 。 

程序 5.2: 


1: poem= "Beautifulis better than ugly. 
2: “Explicit is better than implicit. 
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3: _ Simple is better than complex. 

4: Complex is better than complicated. 
5: Flatis better than nested. 

6: 

gE 

8: 

9: file= open("C:/Users/dell.dell-PC/Desktop/testWriteFile.txt", "w") 
10: file.write(poem) 

11: flecloseO 

输出 到 文件 的 内 容 : 

Beautiful is better than ugly. 


Explicit is better than implicit. 
Simple is better than complex. 
Complex is better than complicated. 
Flat is better than nested. 


分 析 : 

程序 5.2 的 输出 是 程序 的 第 9 行 中 路 径 指定 的 txt 文件 内 容 , 本 程序 其 实在 Python 解释 
器 中 没有 输出 。 程 序 的 第 1 一 7 行使 用 三 引号 "..." 给 变量 poem 指定 了 带 有 换行 的 字符 串 ， 
第 9 行使 用 带 有 目录 的 open 函数 指定 具体 的 文件 ， 同 时 给 本 次 操作 指定 操作 模式 为 w。 操 
作 模 式 w 表示 打开 一 个 文件 只 用 于 写 入 。 如 果 该 文件 已 存在 则 将 其 覆盖 。 如 果 该 文件 不 存 
在 ,创建 新 文件 。 第 10 行使 用 write 函数 将 poem 写 入 文件 ， 最 后 将 文件 关闭 。 此 时 写 入 
文件 已 经 完成 ， 在 对 应 目录 下 会 出 现 该 文件 。 

程序 中 出 现 的 write 函数 是 一 个 很 常见 的 函数 , 表 5.2 列 出 了 有 关 写 入 文件 的 另 一 些 常 
见 用 法 。 

表 5.2 常见 的 写 入 文件 操作 
操作 解释 


如 果 该 文件 已 存在 , 文件 指针 放 在 结尾 用 于 追加 。 新 内 容 会 
被 写 入 到 已 有 的 内 容 之 后 。 若 文件 不 存在 会 先 创建 


将 列表 中 所 有 字符 号 入 文件 中 
将 文件 指针 设置 到 当前 向 后 加 N 处 用 于 下 一 次 操作 


file = open("path", "a") 
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5.4 从 Web 页 面 读数 据 


本 车 中 我 们 使 用 Python 来 做 一 个 简单 的 读 取 页 面 信息 的 程序 。 在 这 个 程序 中 使 用 了 
BeautifulSoup 和 requests 两 个 模块 。 在 使 用 这 两 个 模块 之 前 可 能 要 先进 行 安装 。 这 里 先 列 
出 安装 方法 : 使 用 Win+R 组 合 键 打开 “命令 提示 符 ” 窗 口 ， 输 入 pip install requests 安装 
requests 模块 ， 输 入 pip install beautifulsoup4 安装 BeautifulSoup 模块 。 完 成 后 就 可 以 使 用 这 
两 个 模块 来 快速 构建 一 个 读 取 Web 页 面 信息 的 程序 了 ， 具 体 程序 如 程序 5.3 所 示 。 


旦 序 5.3: 
1 from urllib import request 
2: from bs4 import BeautifulSoup 
E 
4: url="http:/www.jianshu.com" 
5: headers = {'User-Agent':Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 


(KHT™ML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} 
6: page= request.Request(url,headers=headers) 
7: page_info = requesturlopen(page).read0.decode(utf-8) 


9: soup= BeautifulSoup(page_info, 'html.parser) 
11: titles = soup.find all('a’, title) 


13: file= open("C:/Users/dell.dell-PC/Desktop/webinfo.txt","w") 

14: for title in titles: 

1 file.write(title.string + "\n') 

16: file.write("http://www .jianshu.com" + title.get(href) + \n\n') 


输出 到 文件 内 容 《〈 部 分 ) : 


[<a class="title" href="/p/3ea8262b0927" target=" blank"> 比 贫穷 更 可 怕 的 ， 是 缺乏 这 3 样 东 西 </a>, <a 
class="title" hre 仁 "/p/a64529b4ccf3" target="” blank"> 刘 若 英 把 《后 来 》 拍 成 电影 , 你 怎么 看 器 了 ? </a>， 
<a class="tfitle" hre 伍 "/p/ce340277fc6e" target=" blank"> 你 为 什么 至 今 单身 ? 看 完 后 扎 心 了 ! </a>, <a 
class="title" hre 仁 "/p/22cSb608leac" target=" blank">《 后 来 的 我 们 》: 无 法 跟 喜 欢 的 人 在 一 起 .……] 


分 析 : 
在 对 程序 进行 分 析 之 前 先 强调 一 下 ， 输 出 只 是 部 分 内 容 ， 程 序 成 功 执行 之 后 会 在 指定 
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目录 出 现 相应 的 文件 。 同 时 ， 本 节 内 容 算 是 为 后 续 内 容 进行 铺垫 ， 在 这 里 我 们 只 需 简单 了 
解 处 理 步骤 ， 本 书后 文 会 详细 地 讲解 Python 处 理 网 络 的 相关 知识 。 

程序 的 前 两 行将 要 用 到 的 requests 和 BeautifulSoup 两 个 模块 中 的 内 容 引 入 。requests 
模块 用 于 从 指定 的 网 址 上 获取 信息 ，BeautifulSoup 模块 用 于 从 获取 的 信息 中 提取 结构 化 数 
据 。 程 序 的 第 4~7 行 , 将 想 要 获取 信息 的 网 址 给 变量 url， 同 时 将 头 文件 给 变量 headers 用 
于 模拟 浏览 器 访问 。 构 造 之 后 将 这 两 个 变量 用 于 Request() 方 法 并 返回 网 站 页 面 的 请 求 对 象 
page， 通 过 这 个 对 象 得 到 页 面 信息 page_info。 

程序 的 第 9 行 得 到 信息 之 后 使 用 BeautifulSoup 函数 将 其 转化 为 BeautifulSoup 格式 同时 
指定 html.parser 作为 解析 器 。 信 息 转 换 完 成 之 后 存在 变量 soup 中 。 

程序 的 第 11 行 ,提取 soup 中 的 所 有 a 元素 (表示 Web 页 面 中 的 链接 部 分 ) 中 class='title' 
的 部 分 ， 即 链接 中 的 标题 部 分 。 完 成 之 后 将 其 输出 ， 此 时 我 们 再 看 程序 的 输出 ， 是 一 个 列 
表 ， 它 的 格式 还 是 原始 的 HIML ( 超 文本 标记 语言 ， 用 于 静态 网 页 的 制作 ) 格式 。 

程序 的 第 13 行 我 们 使 用 open 函数 创建 写 入 文件 的 file 对 象 用 于 将 信息 输入 文件 中 ， 
后 面部 分 是 迭代 输入 titles 列表 的 各 项 内 容 ， 其 中 有 一 个 细节 要 注意 ， 对 应 输出 来 看 ， 列 表 
中 各 项 的 形式 为 <a class="title" hre 仁 "..." target="...">string</a>, 这 是 HTML 中 表示 链接 的 
形式 ，<a> 和 </a> 称 为 开始 和 结束 标签 ，<a> 和 </a> 标 签 中 间 夹 着 的 是 链接 标题 的 内 容 ，href 
的 内 容 是 a 元 素 内 容 的 跳 转 地 址 。 通 过 这 段 介 绍 再 看 程序 的 第 15、16 行 的 内 容 就 会 变 得 很 
明了 ,使 用 title.string 获得 a 元 素 的 标题 内 容 , 使 用 title.get('href) 得 到 a 元 素 内 容 的 跳 转 地 
址 。 由 于 网 站 在 不 断 地 更 新 ， 不 同时 间 获 取 同 网 站 的 内 容 也 会 不 相同 ， 本 次 运行 得 到 的 部 
分 信息 如 图 5.2 所 示 。 

比 贫穷 更 可 怕 的 ， 是 缺乏 这 3 样 东西 
http://Wwww.jianshu.com/p/3ea8262b0927 


刘若英 把 《后 来 》 拍 成 电影 ， 你 怎么 看 器 了 ? 
http://www.jianshu.com/p/a64529b4cef3 


你 为 什么 至 今 单 身 ? 看 完 后 扎 心 了 ! 
http://www.jianshu.com/p/ce340277fc6e 


《后 来 的 我 们 》 : 无 法 跟 喜 欢 的 人 在 一 起 ， 其 实 是 人 生 的 常态 
http://www.jianshu.com/p/22c5b6081eac 


图 5.2 获取 到 的 网 站 信息 部 分 ) 
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5.5” 浅 谈 Python 处 理 大 数据 文件 


虽然 相 比 于 C++ 等 编程 语言 ， 使 用 Python 处 理 大 数据 文件 效率 不 高 , 但 是 由 于 Python 
开发 速度 快 、 代 码 量 少 、 易 于 维护 、 成 本 低 ， 并 且 有 些 细节 问题 使 用 Python 处 理 极为 方便 。 
因此 ， 在 很 多 情况 下 会 选用 Python 来 处 理 大 数据 文件 。 这 里 介绍 一 下 使 用 Python 处 理 的 
两 种 方法 : 

(1) 将 文件 切 分 为 多 个 小 段 ， 同 时 处 理 多 段 ， 处 理 完成 后 将 处 理 结果 合并 。 

(2) 使 用 Python 自 带 的 迭代 器 分 行 处 理 文件 。 

由 于 这 个 问题 难度 较 大 ， 我 们 在 这 里 只 列 出 处 理 思想 ， 不 给 出 具体 的 程序 案例 。 其 实 
上 述 两 种 方法 涉及 的 是 一 种 名 为 分 治 法 的 经 典 算法 ， 算 法 的 流程 图 解 如 图 5.3 所 示 。 通 过 
这 种 处 理 可 以 充分 利用 现 有 的 计算 资源 ， 但 是 同时 带 来 的 是 对 于 问题 的 分 解 管 理 。 具 体 来 
说 ， 分 治 法 就 是 把 一 个 复杂 的 问题 分 成 两 个 或 更 多 的 相同 或 相似 的 子 问 题 ， 再 把 子 问题 分 
成 更 小 的 子 问 题 …… 直 到 最 后 子 问题 可 以 简单 地 直接 求解 。 最 后 ， 原 问题 的 解 就 变 成 子 问 
题解 的 合并 。 算 法 思想 比较 简单 ， 但 是 真正 处 理 时 会 有 很 多 细节 需要 注意 。 


UV U 
| 子 亲 题 (的 角 | 2 的 解 ] 


子 问题 解 合 并 


原始 问题 的 解 
图 5.3 分 治 法 的 图 解 
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5.6 案例 : 计算 文件 中 关键 字 出 现 次 数 


本 节 将 使 用 Python 读 取 一 个 文件 , 统计 某 个 特定 字符 串 出 现 的 次 数 并 将 其 保存 在 某 个 
文件 中 。 本 次 我 们 使 用 collections 模块 ， 若 是 程序 报 出 没有 找到 该 模块 的 错误 ， 请 使 用 pip 
自行 安装 。 

collections 模块 是 在 Python 内 置 数据 类 型 之 上 ， 提 供 了 多 个 有 用 的 集合 类 模块 。 由 于 
要 统计 特定 字符 串 的 出 现 次 数 ， 我 们 选用 模块 中 的 Counter。 关 于 程序 具体 的 实现 参考 程 


序 5.4。 
旺 序 5.4: 
1: ， import collections 
和 
3: file= open(C:/Users/dell.dell-PC/Desktopy/test_file.txt) 
4: str= file.read().split('") 
5: n= collections.Counter(str) 
6: print(n['the]) 
了 
8: s=Zzip(n.values(), nkeysO) 
9: 


10: output = open('C:/Users/dell.dell-PC/Desktop/result.txt',"w’) 
11: for item in sorted(s, reverse=True): 
9 output.write("{0} {1}\n".format(item[1], item[0])) 


输出 到 文件 内 容 《〈 部 分 ) : 
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book 4 
I4 


分 析 : 

程序 5.4 充分 体现 了 Python 的 开发 速度 快 、 代 码 量 少 的 特点 ， 由 于 Counter 的 使 用 ， 
我 们 只 需要 提供 数据 。 程序 的 第 4 行 str = file.read().split('') 将 其 分 解 介绍 , file.read() 在 前 文 
中 讲 过 , 它 是 将 文件 中 内 容 以 一 个 字符 串 读 出 ,此 时 语句 相当 于 string.split(''), 而 对 于 split(' ) 
它 是 作用 在 一 个 字符 串 上 的 用 于 将 字符 串 按 指定 规则 〈 即 它 的 参数 ， 本 次 程序 中 指定 为 空 
格 ) 分 割 ， 并 将 分 割 后 内 容 以 一 个 列表 返回 。 

至 此 ，str 中 为 [T，'would'，Tike'，'to'，'thank'，'everyone'，'at，'No'，'Starch'，'"Press'， 
'for'.….'favorite', 'books.\n']。 接 下 来 这 条 语句 可 以 说 很 精彩 了 ，collections.Counter(stn) 会 返回 
一 个 字典 ， 我 们 使 用 变量 n 接收 。 其 中 键 为 str 中 的 内 容 ， 值 为 每 项 出 现 的 次 数 ， 具 体内 容 
为 Tto': 11, 'and': 10, 'the': 9, T': 4, "thank': 6，'for: 6, 'would': 5，Tike': 5, 'book': 4, my': 4, 
'everyone': 3, 'this': 3...'books.\n': 1} ， 关 键 字 及 其 出 现 的 次 数 已 经 统计 完成 ， 有 没有 感受 到 
Python 的 强大 ! 得 到 字典 之 后 ， 我 们 使 用 n[he] 取 出 文中 the' 出 现 的 次 数 。 

完成 这 些 处 理 之 后 我 们 将 字典 n 中 的 键 和 键 值 单独 抽出 ， 使 用 zip(n.values(), n.keys()) 
将 这 些 数据 压缩 成 列表 变量 s。 

完成 数据 采集 后 开始 为 数据 写 入 文件 做 准备 。 在 打开 文件 后 ， 我 们 使 用 sorted(s， 
reverse=True)， 以 数据 中 的 n.values() 值 为 标准 对 数据 进行 一 个 倒序 的 排列 操作 ， 最 后 使 用 

“字符 加 空格 再 加 字符 出 现 的 次 数 ” 这 种 格式 将 数据 写 入 文件 。 

到 这 里 程序 已 经 结束 了 ， 你 可 能 会 有 疑问 ， 明 明 只 要 将 数据 写 入 文件 就 好 了 ， 为 什么 
要 先 排 序 ， 再 按照 固定 格式 写 入 文件 ? 这 样 处 理会 为 后 续 操 作 带 来 极 大 的 便利 。 我 们 先 不 
讨论 这 个 问题 ， 但 是 在 这 里 要 说 的 是 任何 努力 都 不 会 白费 的 。 


5.7 趣味 练习 


本 章 的 趣味 编程 我 们 来 谈 谈 使 用 Python 处 理 JSON 格式 的 文件 。 

我 们 都 知道 ， 文 件 格式 是 计算 机 为 了 存储 信息 而 使 用 的 对 信息 的 特殊 编码 方式 ， 本 节 就 
来 详细 谈 谈 JSON 格式 。 这 一 章 的 趣味 编程 可 能 不 像 之 前 的 趣味 编程 那样 有 趣 ， 但 是 ， 对 于 
编程 而 言 ，JSON 格式 是 一 个 很 有 代表 性 的 通信 格式 。JSON 格式 文件 内 容 如 图 5.4 所 示 。 
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图 5.4 JSON 格式 文件 内 容 


5.4 中 的 JSON 格式 文件 内 容 是 一 段 没有 加 任何 处 理 的 JSON 信息 段 , 从 方 框 中 的 内 
容 可 以 看 出 ， 它 只 有 一 行 。 对 于 这 种 格式 我 们 应 该 怎样 处 理 呢 ? 详 见 程序 5.5。 
程序 5.5: 


1l: #f{"success":"1","result":[{"weaid":"1","days":"2018-05-13","week":" 星 期 日 ","cityno":"beijing"," 
citynm":" 北 京 ","cityid":"101010100","temperature":"30 'C /17 'C ","humidity":"0%/0%","weather":" 晴 
","weather_icon":"http://api.k780.com/upload/weather/d/0.gif',"weather_icon1":"http://api.k780.com/upload/ 
weather/n/0.gif',"wind":" 南 风 ","winp":"3-4 级 转 <3 级 ","temp_high":"30","temp low":"17""humi 
high":"0","humi low": "weatid, ,"weatidl":"1","windid":"5","winpid":"402","weather_iconid":"0"," 
weather iconid1":"0"},{"weaid":"1","days":"2018-05-14"."week":" 星 期 一 ","cityno":"beijing","citynm":" 
北京 ","cityid":"101010100","temperature":"34 'C /22 ‘CC ","humidity":"0%/0%","weather":" 晴 转 多 云 
","weather_icon":"http://api.k780.com/upload/weather/d/0.gif","weather_icon1":"http://api.k780.com/upload/weat 
her/n/1.gif',"wind":" 南 风 ","winp":"<3 级 ","temp_high":"34","temp_low":"22","humi high":"0","humi low":" 
0","weatid":"1","weatid1":"2","windid":"5","winpid":"395","weather_iconid":"0","weather iconid1":"1"}]} 


import json 
with open('C:/Users/dell.dell-PC/Desktop/test_json.json') as file: 
data = json.load(file) 


print(data["success"]) 

print(data["result"][0]["citynm"], 
data["result"][0]["days"], data["result"][0]["temperature"]) 
9: print(data["result"][1]["citynm"], 
data["result"][1]["days"], data["result"][1]["temperature"]) 


输出 : 


和 
北京 2018-05-13 30C/117TC 
北京 2018-05-14 34C/227C 


点 睛 : 
为 了 方便 大 家 查看 ， 在 程序 的 第 1 行 我 们 将 程序 中 使 用 的 JSON 信息 段 以 注释 的 形式 
列 出 ， 它 也 是 图 5.4 的 内 容 。 我 们 将 其 存 入 test json.json 文件 中 用 于 程序 的 处 理 。 
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程序 首先 引入 了 用 于 JSON 格式 处 理 的 json 模块 , 接 下 来 ,使 用 data = json load(file) 将 JSON 
格式 文件 解析 ， 此 时 ，JSON 格式 文件 中 内 容 的 格式 已 经 有 了 变化 ， 详 细 见 图 5.5 中 的 内 容 。 


ln 


"weaid": "1", 

018-05-13", 

星期 日 "， 

"beijing"。 

"北京 "， 

"cityid": "101010100", 

"temperature": "30°C/17°C", 
096/096"、 


ttp://apik780.comy/upload/weather/d/0.gif' 
: "http://apik780.com/upload/weather/n/0.gif'， 


"winp": "3-4 级 转 <3 级 "， 
“temp_high": "30" 

"temp_low 
"humi_ high" 


"windid": "5", 

"winpid": "402", 
"weather_iconid" 
"weather_iconidl 


018-05-14", 


"cityid": "101010100", 
"temperature": 
"humidity": "0%/0%" 
"weather": " 晴 转 多 云 "， 

"weather_icon": "http://api.k780.com/upload/weather/d/0.gif", 
"weather_icon1": "http://api.k780.com/upload/weather/n/1.gif", 


"weather_iconid1": 


}] 


图 5.5 解析 后 的 JSON 格式 文件 数据 
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怎么 样 ， 是 不 是 有 了 一 种 豁然 开朗 的 感觉 ! 原本 乱 精 糟 的 内 容 其 实 是 一 段 天 气 预 报信 
息 。 此 时 再 来 看 程序 的 第 7 一 9 行 ， 这 种 使 用 方法 有 点 像 Python 中 列表 、 字 典 的 访问 形式 ， 
例如 ， 图 5.5 中 有 名 包 住 的 数据 ， 也 有 [] 包 住 的 数据 ， 其 中 使 用 [] 包 住 的 数据 需要 使 用 列表 
的 访问 形式 进行 访问 ， 如 [1] 这 种 形式 。 而 个 包 住 的 数据 需要 使 用 像 字 典 的 键 访问 键 值 的 形 
式 来 提取 ， 如 ["days"] 这 种 形式 。 将 这 两 种 形式 进行 组 合 便 可 以 达到 提取 所 有 信息 的 目的 。 


5.8 总 结 


通过 本 章 的 学 习 , 我 们 看 到 Python 中 具体 的 文件 操作 , 还 学 习 了 较为 抽象 的 分 治 思 想 。 
关于 文件 操作 在 实际 的 编程 中 可 能 用 到 的 不 是 特别 多 ， 但 它 是 一 个 很 重要 的 工具 ， 例 如 ， 
我 们 可 以 将 程序 的 运行 状态 写 到 文件 中 并 查看 文件 内 容 的 方式 ， 监 视 程序 的 运行 情况 ， 将 
旦 序 处 理 的 数据 写 入 文件 中 , 并 用 更 为 专业 的 结果 分 析 工 具 打 开 文件 查看 程序 执行 情况 等 。 


5.9 练 习 


(1) open 函数 默认 处 理 模式 是 什么 ? 

(2) 将 列表 [5,6,7,8,2,5,6,3,7,2] 的 内 容 按 一 行 一 个 元 素 写 入 文件 中 ,再 将 文件 中 内 容 去 
除 并 排序 ， 完 成 后 再 次 写 入 文件 。 

(3) 自己 找到 一 个 有 200 行内 容 的 文件 ， 提 取 第 77、90、144 行 的 内 容 ， 要 求 编写 两 
个 程序 来 模拟 分 治 法 的 执行 。 
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本 章 将 使 用 Python 中 的 pandas 模块 进行 数据 分 析 并 使 用 matplotlib 模块 根据 数据 给 
图 。 对 于 这 两 个 模块 在 本 章 中 会 给 出 介绍 并 将 其 应 用 于 案例 中 。 通 过 本 章 的 学 习 ， 需 要 
掌握 : 
matplotlib 模块 和 pandas 模块 的 基础 知识 。 
matplotlib 模块 和 pandas 模块 的 联合 使 用 。 
常用 图 形 的 画 法 。 
将 画图 部 分 应 用 到 程序 中 。 


DOODO 


6.1 matplotlib 基础 


本 章 我 们 将 在 PyCharm 中 使 用 matplotlib 模块 来 编写 程序 ， 在 使 用 前 ， 同 之 前 一 样 在 
“命令 提示 符 ” 窗 口中 使 用 命令 pip install matplotlib 安装 模块 。 也 可 以 在 编写 程序 时 安装 ， 
假设 我 们 没有 引入 模块 ， 并 在 PyCharm 中 使 用 语句 import matplotlib .pyplot as plt, PyCharm 
会 提示 错误 ， 此 时 将 光标 移动 到 import 语句 上 的 任何 位 置 会 显示 一 个 小 灯泡 的 图 标 ， 这 时 
再 单 击 图 标 ， 选 择 install package matplotlib 选项 ， 在 这 之 后 PyCharm 会 帮 我 们 完成 安装 。 


此 过 程 如 图 6.1 所 示 。 


iaport natplotlib. pyplot as plt 
名 


w= 【1.2.3] 二 


时 Rename reference 
lgnore unresolved reference "mat.matplotlib’ 
| 县 Mark all unresolved attributes of ‘mat as ignored » 


图 6.1 在 PyCharm 中 引入 模块 
关于 import matplotlib.pyplot as plt 语句 , 可 以 理解 成 将 matplotlib 模块 的 pyplot 以 新 名 
字 plt 导入 到 要 编写 的 程序 中 。 完 成 后 先 来 看 下 面 这 段 程序 。 
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1: import matplotlib.pyplot as plt 

2: plt.plot([1, 2, 3, 4, 5], [1, 4, 9, 16, 25]) 

3: plt.showO 

程序 中 使 用 plot(0 方 法 绘制 坐标 ， 坐 标 (x*,y) 中 x 和 ?的 值 分 开 存在 列表 中 ， 并 按 先 x 
后 y 的 顺序 将 参数 传 入 plot0 方 法 中 。 程 序 运行 结果 如 图 6.2 所 示 。 


Hos a a 医 


从 |€| 了 | 中 |Q| 三 par/soom 
图 6.2 程序 运行 结果 
在 PyCharm 中 运行 可 能 并 不 会 单独 弹出 窗口 , 这 是 PyCharm 的 设置 问题 , 可 以 通过 取 
消 选 中 File 一 Settings 一 Tools 一 Python Scientific 中 的 Show plots in toolwindow 并 单 击 右 下 角 
的 Apply 按钮 完成 设置 。 这 时 再 运行 程序 就 会 出 现 如 图 6.2 所 示 的 窗口 。 
通过 matplotlib 显示 的 窗口 不 仅 可 以 查看 图 形 , 还 允许 我 们 与 其 进行 交互 。 它 在 左下 角 
处 提供 了 7 个 按钮 ， 如 图 6.3 所 示 。 


ol€ 了 | 中 QQ| 夺 | 加 | 


图 6.3 交互 界面 功能 键 


Back 
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这 些 功能 键 依次 介绍 如 下 。 

(1) Reset: 返回 初始 视图 ， 这 是 相对 于 改变 图 样式 之 后 而 言 的 。 

(2) Back/Forward: 这 两 个 按钮 有 点 像 浏 览 器 中 的 后 退 和 前 进 功 能 ， 可 以 单 击 它们 以 
实现 不 同 操作 效果 的 重 现 。 

(3) Pan: 平移 操作 ， 单 击 之 后 鼠标 光标 会 改变 并 且 可 以 单 击 并 拖 电 显示 出 的 图 。 另 
外 按 住 右键 拖 忠 可 以 旋转 ， 缩 放 。 

(4) Zoom: 放大 操作 ， 左 键 单 击 选 定 区 域 可 以 将 选 出 区 域内 容 放大 ， 右 键 单 击 选 定 
区 域 可 以 将 选 出 区 域内 容 缩小 。 

(5) Configure: 对 图 形 和 绘图 配置 ， 单 击 后 会 弹出 如 图 6.4 所 示 的 界面 ， 通 过 调整 滑 
块 来 改变 间距 ， 其 中 wspace 和 hspace 是 用 于 调整 界面 中 有 多 个 子 图 时 子 图 之 间 的 水 平 间 
距 和 垂直 间距 ， 当 没有 子 图 时 调整 不 会 有 变化 。 界 面 中 的 Reset 按钮 会 重 置 所 有 设置 。 

(6) Save: 保存 图 形 ， 单 击 后 会 弹出 保存 界面 。 


图 6.4 ”Configure 配置 界面 


6.2 ”pandas 绘图 基础 


pandas 是 一 个 功能 强大 的 Python 数据 分 析 模 块 ， 它 有 着 对 齐 功能 的 数据 结构 ， 丰 富 的 
数学 运算 以 及 灵活 的 缺失 书籍 处 理 功能 。 在 使 用 之 前 先 要 安装 模块 ,可 以 使 用 语句 pip install 
pandas 安装 ， 另 外 也 可 以 使 用 上 一 节 介绍 的 在 PyCharm 中 的 安装 方法 安装 pandas 模块 。 

在 本 节 中 将 重点 放 在 使 用 pandas 模块 和 matplotlib 模块 结合 画图 上 ， 我 们 将 pandas 处 
理 后 的 数据 再 使 用 matplotlib 模块 画 出 。 接 下 来 先 来 看 看 下 面 这 段 程序 。 
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import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
data = pd.Series(np.random .rand(1000)) 
data.plotO 
pltshowO 

这 段 代 码 创 建 了 1000 个 随机 数 并 用 于 显示 , 前 3 行 是 程序 中 用 到 的 模块 的 引入 ， 其 中 
第 2、3 行 是 之 前 介绍 的 pandas 模块 和 matplotlib 模块 。 第 1 行 中 的 numpy 是 一 个 高 性 能 
科学 计算 和 数据 分 析 模 块 , 它 是 pandas 模块 使 用 的 基础 。 其 中 np.random.rand(1000) 是 产生 
1000 个 随机 数 ，Series 是 由 数据 和 数据 对 应 的 索引 组 成 的 ， 类 似 于 列表 和 字典 的 结合 ， 
有 序 对 象 并 存在 变量 data 中 。 在 上 一 节 中 ， 显 示 图 形 需要 使 用 plt.plot0 函 数 ， 在 本 段 代 码 
中 使 用 的 是 data.plot0 显 示 ， 这 是 因为 pandas 中 支持 直接 使 用 plot0 方 法 显示 关于 数据 的 图 
形 ,x 轴 的 数据 为 索引 值 ，y 轴 为 之 前 产生 的 随机 数 。 最 后 使 用 show() 方 法 将 图 形 调 出 。 上 
述 代 码 段 画 出 的 图 形 如 图 6.5 所 示 。 
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全 |€| 了 | 中 Ql 二 | 加 | 
图 6.5 pandas 随机 数 生成 的 图 


6.3 基本 图 形 的 绘制 


本 节 将 使 用 小 程序 的 方式 直观 地 列 出 不 同 图 形 的 绘制 方式 , 并 分 析 程 序 中 的 关键 部 分 ， 
让 大 家 快速 学 会 画图 
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6.3.1 折线 图 以 及 标题 和 标签 


在 前 文中 介绍 的 图 都 是 折线 图 ， 在 这 里 我 们 详细 介绍 一 下 将 标题 和 标签 添加 到 显示 的 
图 形 上 。 具 体 地 说 ，matplotlib 中 我 们 使 用 pltplotO 将 绘图 的 数据 作为 参数 传 入 ， 以 此 来 绘 
制 一 个 折线 图 ， 完 成 之 后 使 用 pltshowO 显 示 ， 先 来 看 看 程序 6.1。 

程序 6.1 折线 图 : 


import matplotlib.pyplot as plt 


1 

D. 

3: xl=[1,3,4] 
4: yl=[2,4,1] 
S32= 34] 
6: y2=[4,1,5] 
7 

8 


: plt.plot(xl, yl, label ='Linel) 
9: plt.plot(x2, y2, label = 'Line2) 


11: plt.xlabel(X-axis'’) 
12: plt.ylabel("Y-axis") 
13: plt.title('test Graph') 
14: pltlegend0 

15: plt.showO 


输出 图 形 ， 如 图 6.6 所 示 : 


® Figure 1 = | 


test Graph 


DH 2 2 3 35 a 
| xaxis 
1 全 | 所 |3| 中 Ql 三 ,aa165 y=330238 


图 6.6 程序 6.1 输出 结果 
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分 析 : 

在 该 程序 中 使 用 数据 存 入 列表 中 并 传 入 plotO 中 用 于 绘图 ， 同 时 传 入 label 关键 字 用 于 
显示 时 标注 折线 名 ,还 可 传 入 color 关键 字 用 于 指定 直线 颜色 , 例如 ，color =g 可 以 将 直线 
的 颜色 指定 为 绿色 ，color 的 值 也 支持 16 进 制 的 颜色 代码 ， 如 #191919。 

设置 完 直线 后 开始 标注 坐标 轴 人 信息， 程序 的 第 11、12 行 用 于 设置 坐标 名 称 ， 第 13 
行 用 于 设置 图 的 标题 名 。 之 后 使 用 plt.legend() 生 成 默认 图 例 ， 最 后 使 用 pltshow(O 显 示 
图 形 。 

该 程序 在 同一 坐标 系 画 出 了 两 条 直线 , 这 在 之 后 的 编程 中 是 很 实用 的 ， 因 为 我 们 经 
常 要 将 数据 对 比 ， 而 图 形 又 是 一 种 很 直观 的 表现 形式 。 将 两 条 直线 放 在 同一 坐标 系 中 
并 不 是 难事 ,只 需要 使 用 plot 两 次 创建 直线 ,同时 使 用 label 指出 用 于 区 分 直线 的 名 称 
即 可 。 


6.3.2 条 形 图 

之 前 所 涉及 的 全 是 折线 图 的 画 法 ， 接 下 来 看 看 条 形 图 的 画 法 ， 如 程序 6.2 所 示 。 
显 序 6.2 ”条 形 图 : 

import matplotlib.pyplot as plt 


x1=[1, 3,5,7,9, 11] 
yl1=[4, 1, 5, 7, 10, 5] 


x2=[2, 4, 6, 8, 10, 11] 
y2=[1, 3, 9, 2, 11, 2] 


or NN 


9: plt.bar(xl1, yl, label = "test1") 
10: plt.bar(x2, y2, label = "test2") 


12: plt.xlabel('X-axis') 
13: plt.ylabel("Y-axis") 
14: plt.title('test Graph) 
15: plt.legend() 

16: plt.showO) 


输出 图 形 ， 如 图 6.7 所 示 : 
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test Graph 


Y-axis 


2 4 6 8 10 
Xaxis 


全 |《€|| 中 |Q| 主 | 四] 


图 6.7 程序 6.2 输出 结果 


分 析 : 

将 程序 6.2 同 程序 6.1 对 比 会 发 现 其 实 代码 结构 是 相同 的 并且 语 句 内容 也 很 相似 ， 除 
了 画图 的 数据 以 及 图 的 标注 部 分 有 些 差异 之 外 ， 最 大 的 差别 在 于 条 形 图 使 用 的 是 plt.bar() 
来 创建 图 形 (程序 的 第 9 行 ) ， 折 线 图 是 用 plt.plot0 来 创建 图 形 。 从 图 形 的 数据 源 来 说 ， 
当 x 轴 有 重合 时 图 形 会 亚 在 一 起 ， 正 如 图 6.7 中 x 轴 值 为 11 的 图 形 所 示 。 

6.3.3 直方 图 

直方 图 同 条 形 图 非常 相似 ， 但 是 它们 表述 的 内 容 却 不 太一 样 ， 条 形 图 从 数据 源 的 角度 
来 说 还 是 有 些 像 坐标 数据 ， 但 是 直方 图 的 数据 源 有 点 偏向 于 统计 学 ， 接 下 来 看 一 个 简单 的 
程序 6.3。 

程序 6.3 ”直方 图 ; 


import matplotlib.pyplot as plt 


由 

2 

3: data=[5,22, 10, 44, 55, 99, 87, 86, 45, 22, 6, 33, 87, 98, 15, 25, 77, 89. 31, 32, 71, 83, 82, 52 ] 
4: scalar= [0, 10, 20, 30, 40, 50. 60. 70. 80. 90, 100] 

5: plt.hist(data, scalar, histtype='bar, rwidth=0.5) 

6 
7 


pltxlabel(X-axis) 
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8: plt.ylabel("Y-axis") 
9: plt.title('test Graph) 
10: pltlegendO 

11: plt.showO 


输出 图 形 ， 如 图 6.8 所 示 : 
国 Fourel [eel x) 


test Graph 


a 


» 


~ 


中 | 
0 20 40 60 80 100 


X-axis 


全 |€| 了 | 中 |Q| 三 | 加 | 


图 6.8 程序 6.3 输出 结果 

分 析 : 

从 程序 6.3 可 以 看 出 创建 图 形 处 的 代码 已 经 和 之 前 不 同 ， 对 于 直方 图 的 数据 需要 先 建 
立 一 个 数据 列表 ， 接 着 是 一 个 量度 的 列表 ， 之 后 直方 图 会 自动 地 计算 出 数据 列表 中 数据 在 
不 同 量度 区 间 的 数据 个 数 。 如 图 6.8 所 示 ， 在 60 一 70 处 没有 图 形 ， 这 意味 着 数据 列表 中 没 
有 处 于 60 一 70 之 间 的 数据 。 

再 来 看 看 程序 的 第 5 行 plt.hist(data, scalar, histtype="bar', rwidth=0.5)， 这 条 语句 中 前 两 
个 参数 表示 上 文 提 到 的 数据 列表 和 量度 列表 ， 参 数 histtype="bar' 表 示 直 方 图 显示 类 型 ， 
histtype 的 值 也 可 以 是 barstacked、step 或 stepfilled, 具体 效果 不 在 这 里 展示 了 , rwidth 用 于 
指定 显示 的 条 形 图 中 的 每 个 条 的 宽度 。 同 时 ， 也 可 以 添加 facecolor 直方 图 颜色 参数 或 是 添 
加 alpha 透明 度 参 数 等 。 

程序 中 剩余 部 分 同 程序 6.2 一 样 ， 这 里 不 再 重复 介绍 。 
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散 点 图 在 科学 分 析 中 是 非常 常见 的 ， 它 主要 用 于 分 析 对 象 相关 性 的 体现 。 在 具体 的 程 
序 中 ， 散 点 图 的 实现 方式 非常 简单 ， 具 体 程序 如 程序 6.4 所 示 。 

程序 6.4” 散 点 图 : 
import matplotlib.pyplot as plt 


x=[1, 3, 5, 7, 9, 11] 
vl rh)| 


plt.scatter(x, y, label="scatter", s=25, marker="0") 


mo 


plt.xlabel(X-axis') 
plt.ylabel("Y-axis") 
plt.title('test Graph') 
plt.legend() 
plt.showO 


输出 图 形 ， 如 图 6.9 所 示 : 


® figure 1 所 | 加 | 时 
[ 


一 二 oo 
= 全 


test Graph 


10 . ® scatter 


Yaxis 


2 4 6 8 10 
X-axis 


介 《|3| 中 QQ 二 | 天 


图 6.9 程序 6.4 输出 结果 
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分 析 : 

程序 6.4 和 程序 6.1、 程 序 6.2 非常 像 ， 其 中 最 大 的 不 同 在 于 该 程序 的 第 5 行 是 用 于 
创建 散 点 图 的 语句 。 在 程序 的 第 5 行 中 ， 使 用 plt.scatter 指定 创建 的 是 散 点 图 ， 同 之 前 一 
样 ， 语 名 括号 中 的 内 容 作为 参数 传 入 ， 用 于 指定 图 形 的 具体 形式 。 同 之 前 程序 一 样 ， 变 
量 x 和 Yy 分 别 为 数据 源 传 入 ,label 为 用 于 表示 数据 的 标签 ,s 为 图 中 用 于 显示 散 点 的 大 小 ， 
marker 为 散 点 在 图 中 的 表示 形式 ， 它 的 值 "o" 表 示 使 用 圆 的 形式 在 图 中 显示 散 点 ， 还 有 些 
其 他 的 表示 方式 如 表 6.1 所 示 。 另 外 还 有 些 像 是 color 等 常用 的 参数 使 用 形式 同 之 前 讲 的 
相同 。 


表 6.1 常用 的 marker 及 其 对 应 表现 形式 


marker 的 值 描 述 
使 用 像素 〈 正 方形 ) 的 形式 表示 散 点 
"v" 使 用 下 三 角 的 形式 表示 散 点 
"x" 使 用 符号 x 的 形式 表示 散 点 
“dr 使 用 菱形 的 形式 表示 散 点 
en 使 用 五 角 星 的 形式 表示 散 点 
6.3.5 饼 图 


饼 图 同 之 前 介绍 过 的 图 形 都 不 一 样 ， 它 用 于 显示 部 分 内 容 对 于 整体 而 言 的 所 占 比 例 情 
况 。 对 于 所 占 比 ， 我 们 只 需要 提供 数据 源 的 数据 ，matplotlib 模块 会 自动 计算 出 每 部 分 的 所 


占 比 ， 例 如 ， 下 面 的 程序 计算 某 位 同学 考试 各 科 成 绩 在 总 成 绩 中 的 占 比 。 具 体 程序 如 程序 
6.5 所 示 。 

程序 6.5: 

1: -import matplotlib.pyplot as plt 

2: Score= [95, 89, 65, 90] 

3: Subject= ["Math', 'Chinese', 'English', 'Synthetical'] 

4: cols=['c','m','T,'b'] 

a 

6: pltpie( 

了 人 Score, 
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8: labels=Subject, 

9: colors=cols, 

10: startangle=90, 

IEE shadow=False, 

ES explode=(0.1, 0, 0, 0), 
13: autopct='%1.1f90%") 


14: plt.title("test Graph") 
15: plt.showO 


输出 图 形 ， 如 图 6.10 所 示 : 
@ rouel [ET 一: 一 


test Graph 


Synthetical 


English 


全 |€| 了 | 中 |Q| 主 | 加 


6.10 程序 6.5 输出 结果 


分 析 : 

程序 6.5 中 假设 学 科 分 为 4 门 , 分 别 是 Math ( 数学 ) 、Chinese ( 语文) 、English ( 英 
语 ) 和 Synthetical ( 综合) 。 这 4 门 课程 的 标签 存在 列表 Subject 中 ， 对 应 的 分 数 存在 列 
表 Score 中 。 我 们 从 程序 的 第 6 行 切入 , 首先 提供 了 画图 需要 的 分 数 数据 和 标签 数据 ， 接 
着 参数 colors 是 按照 顺序 对 应 的 方式 设置 了 各 个 部 分 的 颜色 ， 参 数 startangle 设置 了 第 1 
个 部 分 即 程序 中 Math 部 分 在 饼 图 中 的 起 始 角 度 ， 程 序 中 设置 的 是 90%， 这 个 体现 在 输出 
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图 形 中 Math 部 分 的 右边 界 为 垂直 角度 。 通 过 设置 startangle 的 角度 可 以 实现 调整 整个 饼 
图 的 数据 角度 。 参 数 shadow 表示 是 否 为 带 有 阴影 的 饼 图 ， 参 数 explode 用 于 指定 的 部 分 
拉 出 ， 例 如 ， 程 序 的 第 12 行 传 入 explode=(0.1, 0, 0, 0) 将 第 1 部 分 ( 分 数列 表 中 第 1 项 对 
应 的 标签 ) Math 拉 出 ， 而 如 果 想 要 把 English 拉 出 ， 将 explode 赋值 为 (0, 0, 0.1, 0) 即 可 。 
最 后 一 个 参数 autopct 是 用 于 选择 将 百分比 放 到 图 中 各 个 部 分 上 ， 并 将 其 值 精确 到 小 数 点 
后 一 位 。 


6.3.6 图像 注释 


接 下 来 使 用 之 前 讲 过 的 pandas 中 的 数据 产生 散 点 图 并 对 程序 生成 的 图 像 进行 注释 。 先 
来 看 程序 6.6。 
旺 序 6.6 ”图 像 注释 : 
import numpy as np 


import pandas as pd 
import matplotlib.pyplot as plt 


data = pd.DataFrame(np.random .randn(1000, 2), columns=list("AB")) 
print(data.head()) 
data.plot.scatter(x='A', y='B') 


Oo 


9: plt.text(2, 2,'Simple A') 

10: pltannotate(boundary' xy=(-3,-2), xytext=(-2.5,-2.5), arrowprops=dict(facecolor='red')) 
11: plt.grid(True) 

12: plt.showO 


流 YY 
0.482817 -2.202961 
0.297005 -0.452913 
0.434574 -1.007296 
0.672244 0.687188 
0.342619 -1.055706 


输出 图 像 ， 如 图 6.11 所 示 : 


OLD-Oo 
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[下 ES 


作 | 所 3| 中 QQ 三 
图 6.11 程序 6.6 输出 结果 


分 析 : 

程序 的 第 5 行使 用 pandas 模块 创建 了 1000 个 2 列 正 态 分 布 的 随机 数 ， 这 些 数 的 前 5 
个 可 以 在 输出 中 看 到 。 程 序 的 第 7 行 根据 之 前 设置 的 列 名 x、y 调用 列 中 的 数据 用 于 显示 ， 
这 些 步骤 基本 和 之 前 介绍 的 pandas 模块 数据 创建 折线 图 相似 。 

接 下 来 看 看 如 何 给 生成 的 图 添加 注释 ,程序 的 第 9 行使 用 plt.text0 给 图 像 添加 一 条 文 
本 注释 ， 其 中 前 两 个 参数 表示 注释 在 图 像 起 始 位 置 的 坐标 ， 第 3 个 参数 用 字符 串 的 形式 表 
示 注 释 的 内 容 。 程 序 的 第 10 行使 用 pltannotateO 给 图 像 添 加 一 个 箭头 加 文本 用 于 指定 图 像 
中 具体 内 容 的 注释 , 其 中 第 1 个 参数 是 字符 串 表示 注释 的 内 容 , 第 2 个 参数 是 箭头 的 坐标 ， 
第 3 个 参数 是 注释 内 容 的 坐标 ， 最 后 一 个 参数 用 于 指定 箭头 颜色 。 

完成 这 些 设 置 后 ， 使 用 plt.grid(True) 将 图 像 的 网 格 显示 出 来 ， 完 成 这 些 后 使 用 show() 
方法 显示 图 像 。 


6.3.7 子 图 


子 图 是 在 一 个 输出 图 像 中 显示 多 个 图 形 ， 可 以 将 其 理解 为 分 域 ， 每 个 区 域 都 有 独自 的 
执行 代码 用 于 创建 当前 区 域 的 图 。 接 下 来 看 看 具体 创建 子 图 的 程序 6.7。 
程序 6.7: 


1: import matplotlib.pyplot as plt 
2 
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fig=plt.figure() 
x=[1, 3,5,7,9, 11, 15, 17] 
y=[4, 1, 5, 7, 10, 5, 0, 20] 


axl =fig.add_subplot(2, 2, 1) 
ax2 = fig.add_subplot(2, 2, 2) 
9: ax3=fig.add subplot(2, 1,2) 


11: axl.scatter(x,y) 

12: axl.set title('scatter graph') 
13: ax2.plot(x, y) 

14: ax2.set title('plot graph) 


16: ax3.bar(x,y) 

17: ax3.set title('bar graph) 

18: ax3.set xlabel('X') 

19: ax3.set ylabel(Y) 

20: ax3.annotate('first one', xy=(1,1), xytext=(2,2), arrowprops=dict(facecolor="T'")) 
21: plt.showO 


输出 图 像 ， 如 图 6.12 所 示 : 


FE = 


| scatter graph plot graph 
| 20 “| 20 

15 35 

1 . 10 

. 
5le 。 . 5 
of _® . 0 
5 10 15 bargraph 5 10 15 


0 25 50 15 150 115 


和 了 
5 
| | | | | 
0 -一 
5 100 5 
x 


itl> 地 Q| 三 | 四 | 
图 6.12 程序 6.7 输出 结果 


分 析 : 
程序 的 第 3 行使 用 pltfigureO 得 到 一 个 绘图 对 象 并 赋值 给 变量 fg， 后 续 的 操作 都 作用 
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在 fig 上 。 第 7 一 9 行使 用 fig.add_subplot 对 图 像 分 域 ， 并 在 区 域 上 添加 对 应 的 子 图 。 它 的 
参数 分 别 是 行 数 、 列 数 以 及 与 规则 对 应 的 子 图 编号 。 下 面 我 们 来 谈 谈 这 个 对 应 规则 ， 子 图 
在 整个 图 像 的 位 置 是 由 参数 的 3 个 数字 决定 的 ， 参数 2, 2, 1 表示 的 是 2 行 2 列 (2Xx2) 的 
第 1 个 位 置 ， 参 数 2, 2, 2 表示 的 是 2 行 2 列 的 第 2 个 位 置 ， 参 数 2, 1,2 表示 的 是 2 行 1 列 
(2X1) 的 第 2 个 位 置 ， 具 体 的 子 图 分 布 如 图 6.13 所 示 。 

图 6.13 (a) 表示 2 行 2 列 的 子 图 编号 分 布 ， 图 6.13 (b ) 表示 2 行 1 列 的 子 图 编号 分 
布 。 例 如 ， 参数 2, 2, 1 对 应 的 就 是 图 6.13 (a ) 中 编号 为 1 的 位 置 ， 参 数 2, 1, 2 为 对 应 图 
6.13 (b ) 编号 为 2 的 位 置 。 

设置 完成 子 图 之 后 开始 对 各 个 子 图 单独 设置 ,第 11 一 14 行使 用 之 前 的 数据 创建 了 散 点 
图 和 折线 图 ， 这 些 操 作 和 上 文 提 到 的 差不多 ， 要 注意 的 是 这 里 设置 标题 要 使 用 set_title。 

程序 的 第 16 一 20 行 创建 并 设置 了 第 3 个 子 图 ， 同 样 ， 设 置 x,，y 轴 的 标签 名 也 要 加 上 
set_。 虽 然 之 前 对 子 图 设置 都 要 加 上 set ,但 是 添加 注释 的 方法 (程序 的 第 20 行 ) 则 和 之 
前 介绍 的 方法 一 样 。 


2X2 2x1 
i 1 
3 | 4 2 
(a) (b) 
图 6.13 子 图 分 布 


6.3.8 ”3D 散 点 图 


matplotlib 模块 也 支持 3D 图 形 ， 相 对 于 2D 图 形 ，3D 允许 我 们 添加 第 三 组 变量 。 如 果 
说 2D 图 形 用 于 表示 两 个 值 之 间 的 关系 , 那么 3D 图 形 用 于 表示 三 个 值 之 间 的 关系 , 可 以 用 
于 更 为 复杂 变量 之 间 的 直观 表示 。3D 散 点 图 的 实现 如 程序 6.8 所 示 。 

程序 6.8 3D 散 点 图 : 


from mpl_toolkits.mplot3d import axes3d 
import matplotlib.pyplot as plt 


fig=plt.figureO 
axl =fig.add subplot(], 1, 1, projection="3d'") 


er 


xl = [1.2.3.4.5.6.7.8.9.10] 
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本 06078256357 可 

Te | 
T1215 L617 
11: y2=[4,1,5,7,10,5,12,8,9,13] 

1 oh | 


14: axl.scatter(x1, yl],z1,color='b', marker='0') 
15: axl.scatter(x2,y2, 72, color=T', marker='x') 
16: axl.set xlabel(x axis) 

17: axl.set ylabel(y axis) 

18: axl.set zlabel(z axis) 

19: plt.showO 


输出 图 像 ， 如 图 6.14 所 示 : 


SIXBZ 


=- 一 一 -一 


图 6.14 程序 6.8 输出 结果 
分 析 : 
程序 6.8 总 体 来 说 较为 简单 ， 有 许多 语法 在 之 前 都 提 到 过 。 首 先 第 1 行 用 于 将 画 3D 图 
形 的 模块 引入 ,程序 的 第 5 行将 axl 设置 为 一 个 单位 的 子 图 ， 因 为 参数 为 1, 1, 1， 因 此 整 
个 图 中 只 有 一 个 子 图 。 接 下 来 设置 好 参数 之 后 使 用 axl.scatter 和 ax2.scatter 建立 散 点 图 并 对 
其 进行 设置 ， 从 程序 生成 的 图 像 可 以 看 出 两 类 散 点 图 已 经 完成 同时， 我 们 还 可 以 在 交互 
界面 对 其 拖 昌 旋转 查看 图 像 的 不 同 角度 。 


6.3.9 3D 条 形 图 
介绍 完 3D 散 点 图 后 ， 我 们 来 看 看 3D 条 形 图 。 不 同 于 散 点 图 ，3D 条 形 图 不 仅 要 设置 
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坐标 点 ， 还 要 设置 条 形 的 宽度 、 高 度 和 深度 ， 具 体 程序 如 程序 6.9 所 示 。 
程序 6.9 3D 条 形 图 : 


from mpl toolkits.mplot3d import axes3d 
import matplotlib.pyplot as plt 


fig=pltfigureO 
axl =fig.add_subplot(111, projection='3d) 


x=[1,2, 3] 
y=[1,2, 3] 
z=[2,2,2] 


N00 et 


dx =[1, 2, 3] 
dy=[1,1,1] 
dz=[1, 1,3] 


axl.bar3d(x, y, z, dx, dy, dz) 
axl.set_xlabel('x axis) 
axl.set_ylabel('y axis) 
axl.set_zlabel('z axis) 


a 
0 DD ee 


忆 
呈 


plt.showO 
输出 图 像 ， 如 图 6.15 所 示 : 


Z axXis 


ah4 2.025 ws 


图 6.15 程序 6.9 输出 结果 
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分 析 : 

程序 6.9 中 的 大 部 分 语句 和 程序 6.8 相同 ， 最 大 的 不 同 之 处 在 于 程序 的 第 15 行使 用 
axl.bar3d(x, y, z, dx, dy, dz) 来 创建 了 一 个 条 形 图 。 其 中 x,y,z 表示 条 形 的 起 始点 坐标 ，dx 表 
示 宽 度 即 从 起 始点 开始 沿 x 轴 延 伸 的 长 度 ,dy 表示 深度 即 从 起 始点 开始 沿 y 轴 延 伸 的 长 度 ， 
dz 表示 高 度 即 从 起 始点 开始 沿 z 轴 延 伸 的 长 度 。 图 6.16 以 程序 中 的 第 三 个 条 形 为 例 ， 详细 
介绍 了 这 几 个 参数 在 图 中 所 指 。 完 成 3D 条 形 图 的 创建 之 后 ,依照 子 图 的 标签 设置 方式 给 
图 像 添 加 标注 ， 最 后 显示 图 像 。 


在 = 轴 方 向 扩展 
3 个 单位 的 长 度 (dz) 


在 y 轴 方向 扩展 


xX ax 
1 个 单位 的 长 度 (dy) 


第 三 个 条 形 的 起 始点 , 
(3,3,2) 在 x 轴 方 向 扩展 
3 个 单位 的 长 度 (dx) 


图 6.16 条 形 图 第 三 个 条 形 参 数 的 具体 所 指 
6.4 ”绘制 正弦 交 交 电流 图 像 


学 习 完 上 述 的 绘图 内 容 后 ， 我 们 来 处 理 一 个 在 物理 课 上 学 习 过 的 内 容 ， 输 出 周期 为 
0.02s 的 我 国生 活用 220V 交流 电 的 图 像 ， 具 体 程序 如 程序 6.10 所 示 。 
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程序 6.10: 


import numpy as np 
import matplotlib.pyplot as plt 


x= np.arange(0.0, 5.0, 0.001) 
y= 220 * np.sin(100*np.pi*x) 


plt.plot(x, y) 
plt.xlabel('time (s)') 
plt.ylabel('volts (V)) 
0: plt.showO 


输出 图 像 ， 如 图 6.17 所 示 : 
200 上 


OO 


r= 


volts(mV) 
sy 


0 I > 3 4 5 
time(s) 
图 6.17 程序 6.10 输出 结果 

分 析 : 

程序 6.10 中 输出 图 像 是 前 5s 的 电流 波形 。 程 序 最 重要 的 是 第 4、5 行 ， 下 面 先 对 这 两 
行进 行 分 析 。np.arange(0.0, 5.0, 0.001) 是 使 用 numpy 模块 产生 一 个 数据 列表 , 这 行 代码 的 工 
作 机 制 我 们 用 下 面 这 段 代码 解释 。 

1: importnumpy as np 

2: print(np.arange(1, 10, 3)) 


这 段 代码 会 输出 [1 47], 这 就 很 清晰 地 解释 了 np.arange 的 工作 机 制 , 它 表示 从 1 开始 ， 
每 项 加 3， 直 到 累加 的 值 超过 10 退出 ， 它 的 范围 是 大 于 等 于 1， 小 于 10。 学 习 完 这 段 代码 
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之 后 再 看 程序 6.10 的 第 4 行 ， 它 创建 了 从 0 开始 每 0.001 就 产生 一 个 值 的 一 个 列表 ， 这 段 代 
码 产 生 的 列表 内 容 为 [0.000, 0.001，0.002，0.003…0.999]。 完 成 这 段 代码 之 后 ， 用 于 画图 的 x 
轴 数 据 已 经 完成 并 存放 在 变量 x 中 。 

接 下 来 开始 创建 了 轴 数 据 ， 第 5 行 代码 y=220 * np.sin(100*np.pi*x) 表 示 为 每 个 x 中 数 
据 根据 公式 y=220sin(100.x) 生成 y 值 ， 最 后 完成 y 轴 数 据 的 建立 。 完 成 这 些 后 ,使 用 
plt.plot(x, y) 建 立 折线 图 。 


看 到 输出 图 像 图 6.17， 你 可 能 对 这 些 折线 图 有 些 疑 惑 ， 我 们 使 用 了 大 量 符合 正弦 规则 
的 点 来 达到 曲线 的 效果 。 可 以 使 用 交互 界面 的 放大 功能 查看 图 像 的 细节 ， 如 图 6.18 所 示 是 
前 1s 内 的 波形 ， 可 以 看 出 符合 周期 0.02s， 波 形 一 共 翻转 了 100 次 的 规律 。 


200 


三 
所 


© 


voits(mV) 


0.0 02 0.4 0.6 0.8 1.0 
time(s) 


图 6.18 前 1s 内 的 波形 
6.5 案例 : 统计 文件 字符 出 现 频率 


在 这 一 节 中 我 们 来 处 理 一 个 较为 综合 的 案例 ， 在 第 5 章 文件 操作 的 5.6 节 讲 到 了 将 文 
件 中 字符 出 现 的 次 数 写 到 文件 中 ， 本 节 我 们 要 利用 这 个 文件 中 的 数据 ， 统 计 文件 中 出 现 频 
率 最 高 的 前 10 个 字符 并 作 图 显示 其 概率 。 

在 第 5 章 的 5.6 节 最 后 写 入 文件 的 时 候 ， 使 用 的 是 “字符 加 空格 再 加 字符 出 现 的 次 数 ” 
这 种 格式 ， 这 并 不 是 我 们 临时 决定 使 用 的 ， 而 是 经 过 慎重 考虑 之 后 使 用 的 ， 因 为 在 这 里 很 
容易 犯错 ,这 种 格式 是 一 种 CSV 文件 格式 的 衍生 形式 , 这 样 会 让 我 们 以 很 方便 的 形式 读 出 。 
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那么 什么 是 CSV 文件 ? CSV 文件 是 指 文件 内 容 使 用 字符 分 隔 值 的 形式 存 入 , 文件 是 用 纯 文 
本 形式 存储 的 。 我 们 在 存 入 时 只 是 使 用 了 CSV 格式 ， 并 没 用 CSV 的 文件 ， 因 为 程序 产生 
的 是 result.txt 文件 ， 它 只 是 在 内 容 中 使 用 CSV 文件 的 格式 ， 若 是 想 要 存 成 CSV 文件 ， 则 
修改 程序 5.4 中 的 第 10 行文 件 名 为 result.csv 即 可 。 但 是 这 并 不 重要 , 因为 我 们 这 部 分 对 文 
件 的 操作 ， 文 件 内 容 使 用 CSV 格式 就 足够 了 。 具 体 程序 如 程序 6.11 所 示 。 

程序 6.11 统计 文件 字符 频率 : 


import csV 
import matplotlib.pyplot as plt 


word=[] 
num=[] 
sum=0 


Oo 


with open('C:/Users/dell.dell-PC/Desktop/result.txt','r'") as file: 
items = csv.reader(file, delimiter=" ) 
for item in items: 
word.append(item[0]) 
re_ num = (int(item[1])) 
num.append(int(re_num)) 
sum = sum + int(re_num) 


Bd 


x= 吕 
wll 


A 
A TU 


for iin range(10): 
xX.append(word[i]) 
y.append(numl[i] / sum * 100) 


DOOD 
pd 


: plt.bar(x, y) 
plt.xlabel(‘word') 

: plt.ylabel('probability (%o)) 
: pltshow0 


输出 图 像 ， 如 图 6.19 所 示 : 


DObDb 
Sm 
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probability(%) 
ww 
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to and the thank for would like my book 1 
word 


图 6.19 程序 6.11 输出 结果 


分 析 : 

程序 的 第 1 行 先 将 csv 模块 引入 到 程序 中 ， 程 序 的 第 8 行使 用 的 是 with open() as file 
语句 ， 完 成 了 文件 的 打开 并 且 文件 的 关闭 会 自动 完成 ， 同 时 ， 使 用 file 获取 返回 的 文件 对 
象 。 使 用 with 语句 的 好 处 在 于 如 果 执 行 过 程 中 文件 操作 出 现 差错 ( 如 没有 找到 文件 ) ， 它 
会 报 出 一 个 与 差错 对 应 的 异常 。 

完成 文件 的 打开 之 后 ,我 们 将 整个 文件 的 内 容 使 用 csv.reader(file, delimiter-' ) 来 读 入 ， 这 
条 语句 的 意思 是 使 用 CSV 格式 来 读 取 文件 fle 中 的 内 容 ， 每 行 数据 使 用 空格 分 隔 符 来 区 分 。 
完成 这 些 操作 后 ， 我 们 使 用 循环 来 遍历 items 也 就 是 文件 中 的 内 容 ， 而 此 时 的 item 是 文件 中 
已 经 完成 分 割 的 具体 每 行 的 内 容 , 例如， 在 第 一 次 循环 中 ，item 的 值 为 <class "ist>: ['to', '11']。 
在 读 入 文件 内 容 的 过 程 中 ，Python 会 自动 将 文件 内 容 处 理 为 字符 串 ， 因 此 在 将 数字 存 入 num 
列表 之 前 要 先 转 为 int 类 型 。 程 序 的 第 14 行 计算 所 有 字符 出 现 的 次 数 并 用 于 概率 的 计算 。 

至 此 ， 我 们 已 经 得 到 文件 的 所 有 内 容 ， 由 于 在 存 入 文件 时 已 经 对 出 现 次 数 排序 ， 只 需 
再 次 使 用 for 循环 取出 前 10 条 信息 用 于 显示 。 将 x 轴 数 据 设置 为 字符 ，? 轴 为 其 出 现 的 概 
率 (出 现 次 数 /sum ) 。 最 后 使 用 这 些 数据 创建 条 形 图 并 显示 。 

到 这 里 程序 已 经 完成 了 , 这 里 再 谈 一 个 细节 , 第 5 章 中 的 5.6 节 程 序 5.4 的 第 4 行 是 使 
用 空格 将 整个 文件 分 割 , 而 程序 5.4 的 第 12 行 写 入 时 也 是 使 用 空格 分 隔 数据 , 程序 6.11 读 
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入 时 也 是 使 用 空格 ， 这 并 不 是 巧合 ， 当 然 了 ， 写 入 文件 和 读 入 文件 时 的 文件 格式 一 定 要 相 
同 ， 但 是 我 们 之 所 以 都 选择 空格 是 因为 程序 5.4 的 第 4 行 是 使 用 空格 将 整个 文件 分 割 ， 这 
使 得 这 个 分 割 后 的 数据 中 已 经 没有 空格 ， 后 续 使 用 空格 时 不 会 造成 任何 冲突 。 


6.6 趣味 练习 


在 本 章 的 趣味 练习 中 我 们 使 用 matplotlib 模块 来 读 取 并 显示 一 张 图 片 , 这 是 简单 但 重要 
的 第 一 步 ， 因 为 它 是 计算 机 图 像 处 理 的 第 一 步 。 不 同 于 之 前 的 是 ， 我 们 还 要 添加 matplotlib 
模块 中 的 image 来 对 图 片 进行 处 理 。 详 见 程 序 6.12。 

程序 6.12: 


import matplotlib.pyplot as plt 
import matplotlib.image as mpimg 


pic = mpimg.imread('C:/Users/dell.dell-PC/Desktop/pic.png’) 
plt.imshow(pic) 

plt.axis('‘off) 

plt.showO 


输出 图 像 ， 如 图 6.20 所 示 : 


br 


| €|3| 中 Qs| Bl aesss 76 0245 024 
图 6.20 程序 6.12 输出 结果 
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点 睛 : 

程序 的 第 2 行将 image 引入 到 程序 中 ， 第 4 行使 用 mpimg.imread() 读 取 文 件 内 容 ， 得 
到 文件 内 容 之 后 ,使 用 plt.imshow0) 创 建 图 片 。 因 为 图 片 显示 没有 用 到 坐标 信息 ， 因 此 使 用 
plt.axis('off) 将 显示 窗口 中 的 坐标 关闭 显示 。 最 后 plt.show 在 窗口 中 显示 图 片 。 


6.7 总 结 


本 章 学 习 了 Python 画图 的 知识 ， 由 于 图 形 是 一 种 十 分 直观 的 形式 ， 当 我 们 要 处 理 信 息 
比较 或 是 观察 信息 变换 等 情况 时 ， 使 用 图 像 的 形式 展示 出 来 会 让 我 们 对 信息 有 一 个 直观 的 
理解 。 因 此 ， 熟 练 地 绘制 不 同形 式 的 图 形 是 很 有 必要 的 ， 它 是 我 们 的 一 个 重要 的 工具 。 


6.8 练 习 


(1) 简 述 pandas 模块 和 matplotlib 模块 绘图 的 流程 。 

(2) 使 用 你 最 近 一 次 考试 的 各 科 成 绩 绘制 饼 图 。 

(3) 使 用 列表 [69, 55, 59, 40, 90, 87, 60, 86, 85, 71, 79, 91, 75, 76, 61, 63] 和 刻度 列表 [0， 
60, 75, 90, 100] 绘 制 直方 图 。 

(4) 使 用 pandas 模块 产生 1000 个 4 列 正 态 分 布 的 随机 数 作为 坐标 xy) 中 > 轴 的 数 
据 ，x 轴 数 据 为 [0, 1, 2…999]， 绘 制 4 条 折线 图 。 
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到 目前 为 止 ， 书 中 涉及 程序 的 功能 大 多 都 是 由 处 于 同一 层面 语句 实现 的 。 对 于 小 型 程 
序 或 是 某 些 脚本 ， 这 是 可 以 的 。 但 是 如 果 程 序 复杂 ， 我 们 的 工作 量 会 变 得 庞大 ， 同 时 ， 工 


作 也 会 变 得 很 无 聊 。 


Python 为 此 提供 了 一 种 划分 和 组 织 程序 的 执行 逻辑 ， 通 过 这 种 机 制 ， 应 用 程序 内 容 被 


划分 成 逻辑 块 的 组 合 。 


这 种 机 制 被 称 为 函数 。 通 过 本 章 的 学 习 ， 需 要 掌握 : 


口 ”理解 函数 概念 。 


日 旧书 齐 


在 编写 程序 时 可 以 熟练 使 用 函数 。 
明白 函数 参数 传递 的 细节 。 
理解 递归 调用 过 程 。 
理解 模块 的 工作 过 程 。 


我 们 对 于 函数 并 不 陌生 ， 在 很 早 之 前 就 在 数学 课 中 学 过 这 一 概念 ， 先 来 回顾 一 下 函数 
在 数学 中 是 如 何 描述 的 。“ 凡 此 变数 中 函 彼 变 数 者 ， 则 此 为 彼 之 函数 ”， 也 就 是 说 函数 指 
的 是 一 个 量 随 着 另 一 个 量 的 变化 而 变化 ， 其 中 核心 是 两 个 量 的 对 应 法 则 。 

在 Python 中 ， 函 数 是 将 一 些 语句 集合 在 一 起 ， 可 重复 使 用 的 程序 片段 。 它 可 以 用 来 改 
变 程序 的 某 些 状态 ， 也 可 以 用 来 处 理 一 些 数 据 或 是 用 于 计算 出 一 个 返回 值 。 我 们 可 以 选择 
给 函数 传 入 或 是 不 传 入 参数 ， 并 且 参 数 的 个 数 都 是 可 选 的 。 有 具体 来 说 ， 其 实 函数 只 是 将 原 
来 的 编程 模式 按 功 能 分 块 ， 并 将 所 分 的 程序 块 改 为 可 以 广泛 复 用 的 工具 ， 这 样 再 遇 到 类 似 


的 功能 时 ， 只 需要 调 / 


而 不 需要 再 次 编写 成 段 的 代码 。 


为 了 下 文 的 内 容 顺利 进行 ， 在 这 里 我 们 先 简单 介绍 一 下 函数 的 创建 形式 ， 关 于 它 在 编 
程 中 的 具体 形式 及 其 相关 的 语法 ， 在 本 章 中 会 详细 介绍 。Python 中 使 用 def 加 函数 名 来 创 
建 一 个 函数 ， 如 果 函 数 有 返回 值 的 话 可 以 使 用 retum 返回 。 先 看 看 下 面 这 段 程序 : 


defy_line(x): 
友 三 本 定 区 十 3 
Teturm y 
程序 中 使 用 def 定义 了 一 个 名 为 y_line 带 有 一 个 参数 的 函数 ， 函 数 名 后 的 x 是 要 传 入 
函数 的 参数 ，retum 是 将 函数 的 计算 结果 y 返回。 
仔细 想 想 ， 其 实 Python 中 的 函数 和 数学 课 中 学 的 函数 是 有 一 定 联系 的 。 在 数学 中 ,我 
们 将 变量 的 对 应 法 则 视 为 函数 的 核心 ， 而 对 应 法 则 实际 上 是 对 自 变 量 如 何 影响 因 变 量 的 一 
种 描述 。 回 看 上 述 代 码 ，Python 中 函数 的 核心 是 对 参数 的 处 理 并 输出 返回 值 (Python 函数 
中 返回 值 是 可 选 的 ) 的 过 程 ， 这 对 应 数学 中 的 自 变量 (参数 ) 通过 对 应 法 则 (函数 中 代码 ) 
得 到 因 变 量 〈 返 回 值 ) 。 
现 阶段 对 于 Python 中 的 函数 可 以 先 这 样 理解 ， 但 是 ， 一 定 不 要 局 限于 上 述 数学 函数 的 
例子 中 ， 这 只 是 帮助 我 们 理解 Python 函数 概念 而 已 。 在 实际 编程 中 ， 函 数 要 比 上 文 描述 的 
强大 得 多 。 


7.2 为 什么 要 使 用 函数 


有 关于 这 个 概念 我 们 在 上 节 简 单 提 到 过 ， 在 这 里 再 详细 介绍 一 下 。 其 实 ， 函 数 有 时 也 
被 称 为 子 过 程 或 子 程序 。 那 么 为 什么 使 用 函数 呢 ? 其 实 函数 在 程序 设计 中 主要 扮演 了 如 下 
两 个 角色 : 

(1) 减少 代码 见 余 和 代码 重用 。 简 单 地 说 就 是 一 种 打包 逻辑 ， 这 样 可 以 在 之 后 的 其 他 
地 方 不 止 一 次 地 调用 。 因 为 函数 的 这 种 一 次 编写 多 次 运行 的 特点 ， 我 们 的 程序 可 以 减少 代 
码 的 见 余 ， 这 样 也 可 以 通过 只 修改 函数 中 代码 而 达到 将 所 有 函数 调用 处 都 修改 的 效果 。 这 
样 会 使 代码 维护 更 为 简单 。 

〈2) 流 程 分 解 。 函 数 的 机 制 会 自然 而 然 地 将 一 个 完整 的 程序 流程 分 割 成 独立 的 子 程序 。 
实现 较 小 的 任务 要 比 一 次 性 完成 整个 流程 要 容易 得 多 。 函 数 讲 的 正 是 流程 ， 说 的 是 处 理 的 
过 程 。 

函数 不 仅 是 减少 元 余 代码 重用 ， 流 程 分 解 ， 同 时 ， 它 带 来 了 新 的 编程 模式 ， 也 给 我 们 
带 来 了 很 多 关于 编程 思想 的 启示 。 
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7.3 函数 的 创建 和 调用 


7.1 节 中 简单 地 介绍 了 函数 的 创建 ， 现 在 我 们 列 出 函数 的 一 般 形式 : 
def name(argl, arg2,..., areN): 
<statements> 

同 之 前 讲 的 内 容 一 样 ， 函 数 也 是 使 用 4 个 空格 的 缩 进来 表示 该 函数 的 内 容 区 域 ， 也 就 
是 函数 一 般 形 式 中 <statements> 所 处 的 地 方 。def 是 Python 中 函数 创建 语句 ，name 是 要 建 
立 的 函数 的 名 称 ， 用 于 之 后 调用 时 指明 是 哪个 函数 。 首 行 不 仅 定义 了 函数 名 ， 同时， 在 函 
数 名 后 使 用 括号 包含 了 0 一 N 个 参数 〈 因 为 参数 没有 有 具体 值 ， 称 为 形式 参数 ， 简 称 形 参 ) 。 
等 到 函数 被 调用 时 ， 将 具体 的 值 传 入 形 参 ， 用 于 函数 代码 进行 相应 的 处 理 。 

函数 通常 包含 一 条 returm 语句 返回 函数 处 理 的 结果 ， 如 果 函 数 中 没有 返回 具体 值 的 语 
句 ，Python 会 自动 添加 retum None 语句 ， 这 个 过 程 对 我 们 是 不 可 见 的 。 下 面 列 出 带 返回 语 
句 的 形式 : 

def name(argl, arg2,..., argN): 


return value 


return 语句 可 以 在 函数 主体 中 的 任何 地 方 出 现 , 但 是 , retum 表示 本 次 函数 调用 的 结束 ， 
旦 序 也 会 返回 到 函数 调用 处 继续 执行 。 而 return 语句 后 的 value 给 出 函数 的 结果 。 下 面 通 
过 程序 7.1 来 看 看 函数 的 创建 和 调用 。 
程序 7.1: 


def line_formula(a, b, x): 
y=a*x+b 
returny 


formula_value = line_formula(3, 7, 2) 


1 
2 
3 
4: 
3 
6: print("Equation's value ls : {0}".format(formula_value)) 


输出 : 


Equation's value is : 13 
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分 析 : 

程序 中 先 用 def 创建 了 一 个 传 入 直线 参数 和 x 返回 直线 y 值 的 函数 ， 第 5 行 中 使 用 函 
数 名 调用 函数 。 注 意 这 个 调用 形式 : 函数 调用 时 ， 不 需要 使 用 def 了 ， 直 接 用 函数 名 加 上 
要 传 给 函数 形 参 的 值 ( 由 于 这 个 值 是 一 个 明确 的 数 ， 又 被 称 为 实际 参数 ， 简 称 实 参 ) ， 由 
于 函数 会 返回 y 值 ， 我 们 使 用 一 个 赋值 语句 将 函数 返回 值 传 入 formula value 中 (使 用 
formula_value 接收 函数 的 返回 值 ), 这 个 函数 比较 简单 ,主要 是 用 于 熟悉 函数 的 创建 和 调用 。 


注意 : 
在 调用 函数 之 前 一 定 要 先 创建 函数 ， 否 则 Python 会 报 出 一 个 name 'line_formula' is not 
defined 的 错误 。 


7.4 作 用 域 


在 上 一 节 中 我 们 提 到 过 函数 是 将 一 些 语句 集合 在 一 起 ， 可 重复 使 用 的 程序 片段 ， 对 于 
在 这 个 片段 中 定义 的 变量 必 不 可 少 的 是 要 讨论 其 归属 。 在 本 节 中 我 们 要 讨论 的 是 Python 中 
变量 定义 以 及 查找 的 区 域 ， 即 变量 的 作用 域 问 题 。 

在 Python 中 一 个 变量 的 作用 域 〈 可 以 使 用 变量 的 地 方 ) 是 由 赋值 的 位 置 决定 的 ， 这 是 
因为 在 赋值 后 Python 的 变量 会 在 此 地 创建 ， 而 对 于 函数 内 的 语句 是 一 种 可 重复 使 用 的 程序 
片段 ， 在 这 里 定义 的 变量 同 函 数 之 外 定义 的 变量 会 有 什么 联系 ? 在 Python 中 ， 变 量 可 以 归 
纳 为 本 地 变量 、 全 局 变量 和 内 置 变量 。 先 来 看 下 面 这 一 段 程序 : 

x=20 

def p_strO: 

y=x/10 
Print(y) 

Pp_strO 

这 段 程序 会 输出 “2.0”。 从 函数 p_str 的 角度 来 说 ，x 是 在 它 的 上 一 级 定义 的 变量 ， 而 
在 函数 中 通过 赋值 语句 "=" 创 建 的 y 是 函数 中 的 本 地 变量 。 再 进一步 分 析 ， 在 默认 情况 下 ， 
通过 变量 名 赋值 会 创建 或 改变 本 地 变量 。 在 上 述 代 码 中 ， 函 数 域 中 的 变量 y 创建 时 使 用 了 
上 一 级 的 变量 x， 这 在 Python 中 是 允许 的 。 同 时 函数 中 也 可 以 定义 同上 级 同名 的 变量 ， 先 
看 下 面 这 段 程序 : 
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x=10 

def p_strO: 
x=99 
print(x) 

p_strO 

print(x) 

这 段 程序 会 输出 两 行 数 ， 第 1 行 是 99, 第 2 行 是 10。 虽然 函 数 中 通过 等 号 赋值 语句 创 
建 的 变量 x 和 上 一 级 定义 的 x 是 同名 变量 ,但 在 p_str 函数 的 作用 域 中 声明 的 变量 x， 只 在 
函数 内 部 起 作用 ， 在 函数 执行 完毕 后 ， 函 数 内 部 的 变量 值 对 外 部 是 无 效 的 ， 全 局 变量 并 不 
会 受到 影响 ， 所 以 外 部 的 输出 语句 输出 的 依然 是 全 局 变量 x 的 值 。 

上 述 这 种 使 用 未 识别 变量 名 的 方式 ，Python 使 用 的 是 名 为 LEGB 的 机 制 。 该 机 制 
其 实 很 简单 ， 所 谓 的 LEGB 是 指 : 当 遇 到 未 认证 变量 名 时 ，Python 依次 搜索 本 地 作用 
域 L， 上 层 结构 中 的 本 地 作用 域 E， 全 局 作用 域 G， 内 置 作 用 域 B， 这 个 过 程 如 图 7.1 
所 示 。 


内 置 作用 域 


@ 


Global (全 局 作用 域 ) 


任意 上 层 本 地 作用 域 \ 


\ 


{L 


入 


Local (本 地 作用 域 ) 


图 7.1 作用 域 查找 原则 《图 中 使 用 序号 标识 搜索 顺序 》 
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7.5 ”global 语句 


global 语句 的 具体 使 用 方式 是 通过 关键 字 global 后 跟 变 量 名 ， 通 过 global 语法 声明 的 
变量 是 位 于 文件 内 部 顶层 的 变量 。 先 来 看 看 下 面 这 段 代 码 : 

x=10 

def p_strO: 

global x 
x=99 
Print(x) 

P_strO 

print(x) 

这 段 代码 会 输出 两 行 相同 的 内 容 ， 都 是 99， 输 出 的 是 函数 内 部 变量 的 值 。 因 为 p_str 
函数 中 使 用 global 语句 使 函数 内 的 变量 明确 映射 到 全 局 ,使 用 global 关键 字 就 是 告诉 python 
编译 器 这 个 变量 不 是 局 部 变量 而 是 全 局 变量 ， 所 以 变量 x 在 函数 内 被 修改 之 后 的 值 就 映射 
到 全 局 范围 里 ， 覆 盖 了 最 初 定义 的 x=10 的 变量 ， 即 最 后 输出 的 都 是 被 修改 后 变量 的 值 99。 

注意 : 

尽管 有 些 时 候 使 用 global 语句 对 当前 的 情况 是 很 方便 的 ， 但 是 ， 全 局 变量 会 使 程序 更 
难 理解 和 使 用 。 若 是 较 多 次 地 在 函数 中 使 用 global 语句 , 变量 的 变换 由 函数 调用 次 数 决定 ， 
而 函数 调用 的 顺序 是 由 某 种 逻辑 顺序 或 是 其 他 顺序 排列 的 ， 这 样 会 导致 调试 程序 变 得 非常 
困难 。 因 此 ， 全 局 变量 使 得 程序 逻辑 变 得 复杂 。 在 现 阶段 不 熟悉 编程 的 情况 下 ， 我 们 可 以 
使 用 函数 值 传递 的 方式 来 处 理 改 变 值 的 问题 。 总 之 要 尽 可 能 避免 使 用 全 局 变量 。 


7.6 参 数 


参数 是 函数 用 于 接收 外 界 信息 的 一 种 形式 ， 这 个 参数 由 程序 设计 人 员 提 供 ， 函 数 接收 
到 参数 之 后 便 可 以 利用 这 些 值 来 做 一 些 事情 ， 之 前 我 们 已 经 提 到 过 形 参 和 实 参 的 概念 ， 在 
本 节 中 ， 我 们 详细 看 看 参数 传递 过 程 中 的 细节 。 

在 编写 函数 的 时 候 ， 我 们 将 函数 中 的 语句 作用 在 形 参 上 ， 待 到 函数 运行 时 进行 赋值 ， 


2 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 ) 
将 实 参 传 入 形 参 。 这 个 过 程 看 似 简单 ， 但 其 背后 的 细节 我 们 要 在 这 详细 介绍 一 下 。 

7.6.1 参数 类 型 

之 前 在 讲 数据 类 型 的 时 候 提 到 过 不 可 变 类 型 和 可 变 类 型 ， 由 于 在 函数 中 我 们 要 在 传 入 
的 参数 之 上 进行 操作 ， 所 以 在 详细 介绍 有 关 函 数 的 内 容 之 前 需要 先 明白 参数 类 型 的 意义 。 


表 7.1 可 变 类 型 和 不 可 变 类 型 对 照 


可 变 类 型 不 可 变 类 型 


可 变 类 型 指 的 是 变量 在 内 存 中 存储 的 内 容 是 可 以 改 
变 的 。 由 于 这 个 特点 ， 如 果 要 对 该 变量 本 身 进 行 操 
作 只 需要 在 原 有 的 内 存 上 进行 操作 。 

可 变 类 型 包括 字典 型 〈dictionary) 和 列表 型 〈list) 


不 可 变 类 型 指 的 是 变量 在 内 存 中 的 内 容 是 不 允许 修 
改 的 。 因 此 当 要 改变 这 种 类 型 的 变量 时 只 能 为 其 创 
建新 的 对 象 ， 之 后 再 将 原 值 抛弃 。 

不 可 变 类 型 包括 数字 、 字 符 串 和 元 组 


了 解 可 变 类 型 和 不 可 变 类 型 之 后 再 来 看 看 函数 参数 传递 时 的 细节 ， 当 函数 参数 传递 的 
是 可 变 参数 时 ， 可 变 类 型 本 身 传 入 函数 中 ， 函 数 中 代码 段 直接 操作 在 该 变量 上 。 另 外 ， 对 
于 不 可 变 类 型 参数 的 函数 传递 ， 当 函数 调用 时 ， 在 函数 中 创建 一 个 参数 的 复制 对 象 ， 函 数 
中 代码 段 操作 在 该 复制 对 象 上 ， 函 数 内 操作 并 不 会 影响 函数 外 部 传递 的 不 可 变 参 数值 。 对 
于 这 两 种 类 型 的 传递 过 程 如 图 7.2 所 示 。 


Var (不 可 变 类 型 ) 


Var (可 变 类 型 ) 人 


传 出 返回 值 传 出 返回 值 


图 7.2 函数 不 同类 型 参数 传递 过 程 


7.6.2” 浅 拷贝 和 深 找 贝 


上 一 节 中 提 到 过 函数 参数 传递 的 过 程 ， 其 实 这 个 过 程 有 点 像 我 们 接 下 来 要 说 的 浅 拷贝 
和 深 拷贝 ,在 正式 开始 这 节 内 容 之 前 我 们 来 讲 一 下 常用 的 “=” 赋 值 操作 的 内 部 。 先 看 下 面 
这 段 程序 : 

datal = [1, 1] 

data2 = datal 

data2[1]= 2 

print(datal, data2) 

这 段 程序 的 输出 是 [1, 2] [1, 2]， 没 错 ， 对 变量 data2 的 更 新 也 会 作用 到 datal 上 ， 这 是 
因为 data2 =datal 这 行 代码 只 是 给 变量 datal 所 指 的 内 存 起 一 个 别名 : data2， 实 际 上 datal 
和 data2 所 指 的 为 同一 段 代码 。 因 为 datal 和 data2 代表 的 是 同一 段 代 码 块 ， 修 改 data2 其 
实 是 修改 data2 指向 的 内 存 的 内 容 ， 所 以 再 用 datal 调用 这 段 内 存 的 内 容 时 变化 也 会 体现 出 
来 。 代 码 中 的 data2=datal 图 解 如 图 7.3 所 示 。 


list 


Sieel 
@” 


图 7.3 赋值 操作 图 解 


注意 : 

这 里 我 们 使 用 可 变 对 象 是 因为 不 可 变 对 象 不 能 体现 引用 的 特点 ， 不 可 变 对 象 使 用 “=” 
赋值 之 后 内 存 中 也 是 同 图 7.3 这 样 ， 但 是 要 改变 其 中 一 个 变量 的 值 时 ， 由 于 不 可 变 对 象 的 
特点 两 个 变量 不 会 都 改变 ， 而 是 会 为 改变 动作 发 出 的 变量 重新 赋值 。 

1. 浅 拷贝 

浅 拷贝 只 会 拷贝 内 容 的 父 对 象 ， 也 就 是 顶层 对 象 ， 不 会 拷贝 对 象 内 部 的 子 对 象 。 接 下 
来 看 看 下 面 的 程序 7.2。 

程序 7.2 浅 找 贝 示例 程序 : 


ts 
t 
= 


人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 ? 


import copy 
datal = [["datal", "This is datal"], 1] 
data2 = copy.copy(datal) 


data2[0][0] = "data2" 
data2[1] =2 


0 


print(datal) 
print(data2) 

输出 : 

[rdataz "This is datal'], 1] 

[frdata2', 'This is datal'], 2] 

分 析 : 

浅 拷贝 和 深 拷 贝 使 用 了 copy 模块 ,在 编写 程序 之 前 要 先 将 模块 引入 , 关于 模块 的 内 容 
我 们 在 后 文 再 详细 介绍 。 

程序 的 第 3 行使 用 copy 方法 将 datal 的 内 容 浅 拷贝 到 data2， 由 于 datal 不 是 单 层 
对 象 ， 其 中 的 深层 对 象 也 就 是 列表 ["datal", "This is datal"] 为 datal 和 data2 共享 的 内 存 
内 容 ， 外 层 列表 中 的 第 二 项 数字 1 是 双方 独自 拥有 的 。 因 此 ， 改 变 data2 子 模块 的 值 ， 
通过 结果 输出 可 以 看 出 对 于 深层 对 象 datal 和 data2 的 内 容 都 改变 了 , 修改 data2 外 层 的 
对 象 数 字 仅 有 data2 改变 。 关 于 浅 拷贝 data2 = copy.copy(datal) 这 行 代码 的 图 解 如 图 7.4 


所 示 。 
全 -ED 
"This is datal" 
到 
图 7.4 浅 拷贝 图 解 
2. 深 拷贝 


深 拷贝 使 用 copy 模块 中 的 deepcopy 函数 ， 它 指 的 是 拷贝 时 完全 拷贝 了 父 对 象 及 其 子 
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对 象 。 完 成 拷贝 后 参与 拷贝 的 变量 是 完全 独立 的 。 接 下 来 看 看 下 面 的 程序 7.3。 
程序 7.3 深 拷贝 示例 程序 : 


import copy 
datal = [["datal", "This is datal"], 1] 
data2 = copy.deepcopy(datal) 


data2[0][0] = "data2" 
data2[1]=2 


print(datal) 
print(data2) 

输出 : 

[['datal', "This is data1'], 1] 

[rdata2', 'This is data1'], 2] 

分 析 : 

程序 的 第 3 行 ， 深 拷贝 将 深层 的 子 对 象 也 从 datal 拷贝 到 data2 中 。datal 和 data2 就 
是 两 个 拥有 相同 内 容 对 象 的 独立 变量 ,通过 输出 我 们 可 以 看 出 ,修改 data2 中 子 对 象 的 内 
容 时 datal 不 会 受到 影响 。 关 于 深 拷贝 的 data2=copy.deepcopy(datal) 语 句 的 图 解 如 图 7.5 
所 示 。 


RS 


"this is datal" 


"this is datal” 
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注意 : 

关于 拷贝 的 知识 先 讲 到 这 ， 在 这 里 我 们 从 可 变 对 象 和 不 可 变 对 象 的 角度 谈 谈 持 贝 。 对 
于 不 可 变 对 象 ， 其 实 没 有 拷贝 的 说 法 ， 因 为 当 改变 不 可 变 对 象 时 ， 都 是 用 新 对 象 替 换 旧 对 
象 。 而 可 变 对 象 的 拷贝 过 程 便 是 我 们 上 文 所 谈 的 ， 分 为 浅 拷 贝 和 深 持 贝 。 


7.6.3 ”函数 参数 形式 


Python 中 的 函数 参数 形式 很 灵活 ， 这 使 得 在 使 用 时 会 让 我 们 有 很 多 的 自由 空间 。 下 面 
依次 来 介绍 默认 参数 、 缺 省 参数 、 关 键 字 参 数 和 可 变 参数 。 

1. 默认 参数 

默认 参数 是 缺 省 参数 的 基础 ， 当 缺 省 参数 时 Python 会 自动 分 配 默 认 参 数值 到 函数 ， 因 
此 默认 参数 在 程序 运行 时 有 很 大 的 好 处 ， 它 可 以 避免 一 些 错误 的 发 生 。 我 们 先 通过 下 面 这 
段 程序 来 看 看 其 使 用 形式 。 

def ptr(name = "None", age = 0, grades = 0): 

print(name, age, grades) 

ptrO 

默认 参数 的 最 主要 形式 特点 是 函数 在 声明 参数 时 使 用 “=” 来 为 参数 指定 默认 值 。 通 过 
使 用 上 面 这 种 默认 参数 的 函数 声明 后 ， 使 用 ptr0 这 种 函数 调用 方法 是 完全 没有 问题 的 ， 这 

段 程序 会 输出 None 0 0。 

2. 缺 省 参数 

有 了 默认 参数 的 基础 ， 缺 省 参数 便 很 容易 理解 了 ， 先 来 看 下 面 的 程序 。 

def ptr(name = "None", age = 0, grades = 0): 

print(name, age, grades) 

ptr("Leo", 1) 

这 段 程序 因为 使 用 了 默认 参数 , 在 函数 调用 时 不 必 将 参数 全 部 指出 , 程序 会 输出 Leo 1 0。 
调用 时 使 用 了 缺 省 参数 ， 因 此 grades 为 默认 值 0。 这 段 程序 没有 什么 难点 ， 但 是 要 注意 的 是 
这 种 调用 方式 是 通过 位 置 的 方式 将 形 参 和 实 参 匹 配 的 。 那 是 否 有 一 种 更 为 灵活 的 方式 ?让 我 
们 继续 来 看 看 关键 字 参 数 的 方式 。 

3. 关键 字 参 数 

为 了 摆脱 之 前 说 到 的 位 置 匹配 的 缺点 ，Python 允许 通过 变量 名 进行 匹配 ， 但 是 它 的 形 
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式 比 之 前 略为 复杂 。 先 看 下 面 这 段 程序 。 

def ptr(name = "None", age = 0, grades = 0): 

print(name, age, grades) 

ptr("Leo", grades=1) 

这 段 程序 通过 使 用 关键 字 匹 配 的 方式 跳 过 age， 直 接 指定 变量 grades 的 值 。 变 量 name 
的 赋值 是 通过 位 置 指定 的 ， 同 时 也 使 用 了 缺 省 参数 。 它 们 混在 一 起 也 充分 体现 了 Python 函 
数 的 灵活 性 。 

4. 可 变 参数 

当 我 们 的 函数 要 处 理 任意 数量 参数 时 ， 之 前 提 到 过 的 参数 类 型 都 不 能 胜任 ，Python 为 
这 种 情况 提供 了 一 种 可 变 参数 的 形式 ， 先 来 看 下 面 的 程序 7.4。 

程序 7.4: 


def ptr(Name="Leo", *nums, **score): 
print("Name : {0}".format(Name)) 


for item in nums: 
print("No. {0}".format(item)) 


1 
2 
3 
4 
和 
6: 
for partl, part2 in score.items(): 
8 print(partl, part2) 

9 

1 


0: ptr("Leo", 1, 2, 3,math=95, physics=92, chemistry=91) 


输出 : 
Name : Leo 
No.l 

No.2 

No.3 

math 95 
physics 92 
chemistry 91 


分 析 : 
当 程 序 的 第 10 行 调用 函数 时 ， 实 参 传递 给 对 应 的 形 参 ,此 时 实 参 被 分 解 为 Name:'Leo' 
num:<class 'tuple'>: (1, 2, 3) score: {math': 95, 'physics': 92, 'chemistry' 91} 。 实 参 之 所 以 被 分 
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解 是 因为 形 参 中 的 “*”。 具 体 来 说 ，*nums 用 于 接收 变量 并 存在 元 组 中 ，**score 用 于 接 
收 变量 并 存 到 字典 中 ， 字 典 的 键 和 键 值 不 能 通过 “: ”和 链接， 要 通过 “=” 链 接 。 当 它们 同 
时 使 用 时 ，Python 会 自动 通过 元 素 的 形式 分 到 不 同 的 组 中 ， 但 是 不 同类 型 的 变量 不 能 相互 
交叉 ( 即 不 能 使 用 类 似 于 1,math=95 这 种 方式 ) 。 

注意 : 

当 函 数 的 参数 同时 有 *nums 和 **score 时 ，*nums 一 定 要 放 在 **score 前 面 ， 否 则 会 
报错 。 


7.7 递 归 


递归 算是 一 个 较为 高 级 的 话题 ， 但 是 递归 在 使 用 时 不 一 定 是 最 简单 的 或 是 最 高 效 的 ， 
并 且 ， 递 归结 构 并 不 容易 理解 ， 所 以 在 实际 编程 中 较为 少见 。 

递归 指 的 是 在 函数 的 定义 中 使 用 函数 自身 的 方法 ， 即 在 函数 中 调用 自身 。 拥 有 这 种 特 
点 的 函数 被 称 为 递归 函数 。 刚 一 开始 就 罗列 一 大 段 临 涩 的 知识 点 不 是 本 书 的 特点 ， 下 面 给 
大 家 唱 一 首 儿 歌 :， 从 前 有 座 山 ， 山 里 有 座 庙 ， 庙 里 有 个 老 和 尚 ， 正 在 给 小 和 尚 讲 故事 ! 故 
事 是 什么 呢 ? “从 前 有 座 山 ， 山 里 有 座 庙 ， 庙 里 有 个 老 和 尚 ， 正 在 给 小 和 尚 讲 故事 ! 故事 
是 什么 昵 ? ”……。 

看 完 递归 概念 再 看 这 首 儿 歌 有 没有 一 种 忧 然 大 悟 的 感觉 ， 就 是 这 么 相似 ， 这 么 巧 ! 但 
是 递归 有 一 点 不 同 的 地 方 ， 它 是 自 定 义 条 件 退出 。 接 下 来 看 一 个 简单 的 求 和 程序 7.5， 体 味 
一 下 递归 概念 。 

程序 7.5: 

def sum(nums): 
print(nums) 


if not nums: 
Tetum 0 


| 

了 

3 

4: 

3 else: 
6: return nums[0] + sum(nums[1:]) 
7 

8: print(sum([4, 2, 1, 8])) 


输出 : 


[4, 2, 1, 8] 


分 析 : 
程序 的 第 6 行 通过 调用 本 身 实 现 了 递归 操作 ， 同 时 ， 第 3 行 通过 证 语句 设置 了 递归 的 
退出 语句 。 由 于 递归 的 过 程 较为 复杂 ， 我们 直接 使 用 图 解 的 方式 对 程序 进行 分 析 ， 如 图 7.6 


所 示 。 


sum([]) 
nums=|] 
retum 0 


图 7.6 递归 图 解 


每 次 函数 运行 程序 的 第 6 行 都 会 用 sum(nums[1:]) 带 着 新 的 参数 再 次 进入 本 函数 中 ， 直 
到 新 的 参数 为 空 , 这 时 会 执行 程序 的 第 4 行 的 retum 0 使 得 这 个 递归 依次 返回 并 完成 数值 计 
算 ， 这 个 过 程 在 图 7.6 中 用 序号 体现 。 

完成 了 上 述 递 归 求 和 的 学 习 后 , 我 们 再 来 看 看 更 加 复杂 的 递归 求 Fibonacci 数列 各 项 的 
程序 。Fibonacci 数列 又 称 黄金 分 割 数列 ， 它 指 的 是 : 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 
233.377… 该 数列 从 第 3 项 开始 ， 之 后 的 每 一 项 都 等 于 前 两 项 之 和 。 该 数列 的 递归 程序 实现 
如 程序 7.6 所 示 。 

程序 7.6: 


1: -deffibo(n): 
2 ifn<=1: 
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8 Teturm n 
4: else: 

局 retum (fibo(n - 1) + fibo(n - 2)) 
6: 

7: foriinrange(10): 
8: print(fibo(i)) 
输出 : 

0 

1 

1 

2 

E 

5 

8 

13 

| 

34 

分 析 : 


同上 一 个 递归 求 和 的 函数 相 比 ，Fibonacci 数列 比较 复杂 。 但 是 实际 上 递归 只 是 在 求 当 
前 数列 的 项 ， 而 且 每 次 都 是 要 从 第 一 项 0 算 起 ， 一 直 算 到 当前 项 ， 因 此 要 使 用 for 循环 来 
控制 输出 数列 的 个 数 。 正 是 因为 每 次 都 是 从 第 一 项 0 算 起 ， 该 程序 的 效率 较 低 。 

程序 的 第 5 行使 用 了 两 次 递归 ， 但 是 这 两 次 调用 并 不 是 平行 顺序 ， 它 是 一 种 类 似 深 度 
优先 的 顺序 。 由 于 递归 过 程 比较 复杂 ， 仅 列 出 fibo(4) 的 递归 计算 图 解 ( 见 图 7.7) 。 

在 图 7.7 中 使 用 序号 标识 递归 调用 的 顺序 。 虽 然 程 序 的 第 5 行 return (fibo(n-1) + 
fibo(n-2)) 中 两 个 fibo 函数 是 并 列 的 ， 但 是 实际 是 第 一 个 递归 完成 后 才 进 行 第 二 个 的 递 
归 。 图 中 仅 是 数列 中 的 第 4 项 的 计算 过 程 , 之 所 以 图 中 的 过 程 (a) 中 最 下 面 fibo(1)=1 
和 fibo(0) =0 没有 继续 递归 下 去 ， 这 正 是 因为 程序 的 第 2 行使 用 证 设置 了 递归 退出 
条 件 。 

明白 了 程序 递归 运行 机 制 之 后 我 们 会 发 现 ， 相 比较 于 循环 计算 Fibonacci 数列 的 方法 ， 
即 保留 前 两 项 值 直 接 进 行 计算 ,递归 计算 过 于 烦琐 ,尤其 是 数列 中 靠 后 项 的 计算 。 因 此 ， 
在 选用 递归 做 程序 设计 时 要 慎重 。 
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fibo() fibo(4) 
@ 


fibo(3) 


© 


| maeo) | 


图 7.7 fibo(4) 的 递归 图 解 


7.8 模 块 


至 此 ， 我 们 已 经 明白 了 如 何在 程序 中 通过 定义 函数 来 减少 工作 量 ， 但 是 目前 都 是 仅仅 
局 限 在 一 个 Python 文件 中 ， 而 在 实际 应 用 时 所 用 程序 都 在 一 个 文件 中 编写 是 不 太 可 能 的 ， 
为 了 扩大 函数 重用 的 范围 ， 我 们 引入 模块 这 一 概念 。 

7.8.1 什么 是 模块 


我 们 对 模块 其 实 并 不 陌生 , 前 面 已 经 使 用 多 次 了 , 本 章 讲 拷贝 时 也 提 到 使 用 import copy 
语句 引入 copy 模块 。 通 过 图 7.8 copy 模块 的 内 容 , 可 以 看 出 模块 中 有 很 多 我 们 熟悉 的 内 容 ， 
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包括 一 些 变量 、 函 数 的 具体 实现 《有 些 还 没有 提 到 过 的 关键 字 会 在 后 文中 学 习 ) ， 其 中 就 
有 我 们 之 前 使 用 的 copy 函数 和 deepcopy 函数 。 

我 们 可 以 使 用 dir 函数 得 到 模块 中 内 容 列 表 ， 如 语句 print(dir(copy))。 这 条 语句 会 输出 
copy 模块 中 定义 的 全 部 内 容 的 名 称 : 

[Emor all builtins cached doc 和 ee "" loader Dame Daockase 


'_ spec_', ' copy_dispatch', ' copy_immutable'’, ' deepcopy_atomic', ' deepcopy_dict， "deepcopy 
dispatch', ' deepcopy_list', ' deepcopy_method', ' deepcopy_tuple', ' keep_ alive', ' reconstruct', 'copy', 
"deepcopy', 'dispatch_table', 'error'] 


class Error (Exception) : 
pass 


error = Error # backward compatibility 


try: 

from org. python. core import PyStringMap 
except ImportError: 

PyStringMap = None 


_all = [“Error”, “copy”, “deepcopy”] 


def copy(x) : 
”Sha11ow copy operation on arbitrary Python objects. 


See the module’s_doc_ string for more info. 
cls = type(x) 


copier = _copy_dispatch. get (cls) 
if copier: 
return copier (x) 


try: 
issc = issubclass(cls, type) 

except TypeError: # cls is not a class 
issc = False 

if issc: 
# treat it as a regular class 
return _copy_immutable (x) 


copier = getattr(cls，”_copy “, None) 
if copier: 

return copier (x) 
reductor = dispatch table. get (cls) 


图 7.8 ”copy 模块 内 容 (Error 部 分 的 内 容 ) 
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接 下 来 详细 分 析 下 import copy 是 如 何在 程序 中 起 作用 的 。 当 程序 运行 到 import copy 这 
一 语句 时 ， 它 便 会 开始 寻找 copy 模块 ， 这 一 语句 就 是 告诉 Python 我 们 在 程序 中 要 使 用 该 模 
块 的 内 容 。copy 是 Python 中 的 内 置 模块 ， 我 们 不 必 指明 模块 目录 ，Python 知道 它 的 位 置 。 

另外 ， 还 有 一 条 引用 语句 from…import， 它 是 将 模块 的 部 分 内 容 引 到 我 们 的 程序 中 。 
先 来 看 下 面 这 段 程序 : 

from math import sqrt 

print("y25: "sqrt(25)) 

程序 将 根 号 函数 sqrt 从 math 模块 中 引入 程序 中 并 使 用 它 , 这 种 引入 方式 不 必 使 用 模块 
名 加 点 符 ( 如 copy.deepcopy(datal)) ， 可 以 直接 使 用 函数 名 ， 但 是 这 也 带 来 了 名 称 冲 突 问 
题 。 这 样 只 引入 模块 的 部 分 内 容 减 少 了 计算 机 的 工作 量 ， 但 是 ， 一 般 来 说 ， 我 们 在 程序 中 
应 该 尽量 避免 使 用 from…import 语句 ， 因 为 这 条 语句 可 能 会 导致 程序 中 出 现 名 称 冲突 并 且 
让 我 们 的 程序 更 难 被 别人 理解 。 

7.8.2 自 定义 模块 

通过 上 述 讲解 大 家 对 模块 可 能 还 是 感觉 有 点 神秘 ， 如 果 你 有 保存 之 前 的 案例 或 是 练习 
的 程序 ， 那 么 无 形 之 中 已 经 定义 了 很 多 模块 。 每 一 个 独立 的 Python 程序 都 可 以 当成 一 个 模 
块 。 接 下 来 我 们 使 用 代码 段 的 方式 正式 创建 一 个 模块 并 调用 它 。 

首先 使 用 之 前 学 到 的 递归 输出 Fibonacci 数列 创建 模块 文件 mymodule.py, 其 内 容 如 下 : 


1:  #Ebo 数列 

2: deffibo(n): 

3 ifn<=1: 

4: Tetum n 

3 else: 

6: retum (fibo(n - 1) + fibo(n -2)) 
7 

8: defptrFibo(n): 

9: for i in range(n): 
10: print(fiboG)) 
Ji 

12: _ version ='0.2' 


文件 中 的 大 部 分 内 容 都 和 之 前 的 一 样 , 更 改 部 分 只 是 创建 了 一 个 ptrFibo 函数 并 将 控制 


“134。 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 ) 


输出 数列 个 数 的 循环 代码 装 入 。 最 后 添加 了 一 行 表 示 模 块 当前 版 本 的 变量 ， 让 该 文件 的 内 
容 更 像 一 个 模块 。 

接 下 来 在 模块 文件 mymodule py 同 目录 下 创建 调用 模块 文件 callModule py， 其 内 容 
如 下 : 

1 import mymodule 

print('The version of this module is :', mymodule. version ) 

4: mymodule.ptrFibo(10) 

调用 程序 中 ,我 们 使 用 模块 名 加 点 符 使 用 模块 中 的 变量 和 函数 。 那 么 Python 是 如 何 找 
到 我 们 定义 的 模块 的 呢 ? 在 创建 callModule.py 文件 时 我 们 提 到 过 要 在 同 目录 下 创建 , 这 是 
因为 当 导 入 模块 时 Python 会 按照 “当前 目录 ~PYTHONPATH (安装 过 程 中 的 默认 路 径 ) 
下 的 每 个 目录 一 默认 路 径 〈 系 统 中 的 默认 路 径 ) ”这 个 顺序 搜索 模块 直到 找到 该 模块 。 


7.9 趣味 练习 
本 次 的 趣味 练习 将 使 用 Python 做 一 个 简单 的 绘图 板 ， 我 们 使 用 Python 监听 键盘 中 的 


上 下 左右 按键 并 对 它 做 出 相应 的 反应 。 先 来 看 程序 7.7。 
旺 序 7.7: 


1: import turtle 

2: t=turtle.Pen| 

3: tturtlesize(2, 2, 2) 
4: def upO: 

Se t.forward(50) 
6: defleftO: 

表 tleft(90) 

8: defrightO: 

上 t.right(90) 
10: def downO: 

JE tright(180) 
) 2 


13: turtle.onkeypress(up, "Up") 
14: turtle.onkeypress(left, "Left") 
15: turtle.onkeypress(right, "Right") 
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16: turtle.onkeypress(down, "Down") 


18: turtle.listen() 
19: turtle.doneO 


输出 图 像 ， 如 图 7.9 所 示 : 


图 7.9 程序 7.7 输出 结果 


点 睛 : 

对 于 turtle 模块 我 们 已 经 非常 熟悉 了 , 在 这 里 只 对 程序 中 部 分 内 容 进行 分 析 。 程序 的 第 
3 行 tturtlesize 的 作用 是 设置 绘图 时 的 方向 指示 箭头 ,其 中 前 两 个 参数 分 别 是 箭头 的 长 和 宽 ， 
第 3 个 参数 是 箭头 的 圆滑 程度 。 

接 下 来 对 应 键盘 中 的 4 个 方向 键 设置 4 个 函数 用 于 箭头 的 转向 ， 但 是 因为 绘图 中 不 能 
只 转向 ,因此 我 们 将 前 进 箭头 对 应 的 函数 设置 为 向 前 画 出 50 个 单位 的 直线 。 定 义 完 函数 之 
后 , 我 们 使 用 onkeypress 将 其 绑 定 到 按键 上 。 最 后 使 用 turtlelisten0 监 听 键 盘 的 输入 ， 语 名 
turtle.done() 用 于 关闭 turtle， 如 果 没 有 这 条 语句 的 话 程序 可 能 会 闪 退 。 
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7.10 总 结 


本 章 主要 学 习 了 关于 函数 的 操作 以 及 Python 中 函数 机 制 的 细节 ， 其 中 最 重要 的 是 将 函 
数 这 种 思想 应 用 到 程序 的 编写 中 。 本 章 还 学 习 了 有 关 模 块 的 知识 ， 这 些 对 于 编写 中 大 型 程 
序 都 是 必 不 可 少 的 ， 并 且 ， 不 管 是 自己 编写 程序 还 是 阅读 引用 已 有 的 库 ， 函 数 都 是 很 重要 
的 功能 实现 手段 。 本 章 还 介绍 了 递归 的 概念 ， 这 部 分 内 容 虽 然 难度 比较 大 ， 但 是 希望 大 家 


(1) 编写 一 个 无 返回 类 型 的 函数 ， 将 圆 的 半径 作为 参数 传 入 函数 中 ， 要 求 函数 的 功能 
是 计算 圆 的 周 长 和 面积 。 
(2) 观察 下 面 这 段 程 序 ， 写 出 函数 space 中 的 可 用 变量 。 
total =0 
=10 
def p_strO: 
y=99 
global n=1 
二 二 并 
Print(x) 


def space(): 
printO 


P_str0 

Print(x) 

(3) 观察 下 面 这 段 程序 ， 写 出 程序 的 输出 结果 ， 并 画图 分 析 为 什么 数字 为 不 可 变 类 型 
最 后 却 被 改变 了 。 

import copy 


datal = [[58, "This is datal"], 1] 
data2 = copy.deepcopy(datal) 


data2[0][0] = 89 


print(datal) 
print(data2) 


披荆斩棘 ( 选 做 ) : 
向 程序 中 输入 一 个 数 n， 并 使 用 递归 求 出 n 的 阶乘 。 要 求 画 出 递归 调用 简 图 。 
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在 此 之 前 的 全 部 案例 、 练 习 都 是 以 处 理 问 题 的 过 程 为 中 心 ， 我 们 所 编写 的 程序 大 多 是 
些 处 理 数据 的 代码 块 。 这 其 实 是 一 种 名 为 面向 过 程 〈Procedure-oriented) 的 编程 方式 。 早 
在 本 书 的 开始 就 提 到 过 Python 支持 面向 对 象 编程 ,那么 到 底 什么 是 面向 对 象 ? 本 章 我 们 将 
学 习 有 具体 的 面向 对 象 编程 技术 。 先 在 这 里 强调 一 下 ， 本 章 内 容 是 Python 的 重点 ， 而 且 相 比 
前 序章 节 较 为 抽象 ， 难 度 较 大 ， 和 希望 大 家 重视 。 

通过 本 章 学 习 ， 需 要 掌握 : 
理解 面向 对 象 的 相关 概念 。 

口 类 及 其 相关 操作 。 
口 ”继承 概念 及 其 实现 方法 。 
口 ”如 何 设计 继承 结构 。 


口 


8.1 面向 对 象 与 面向 过 程 


面向 对 象 和 面向 过 程 是 两 种 不 同 的 组 织 程序 的 方式 ， 在 Python 中 面向 对 象 是 可 选 的 ， 
在 学 完 本 童 后 , 我 们 不 必 强 迫 将 所 有 程序 都 转 为 面向 对 象 , 但 要 尽快 让 自己 适应 这 一 模式 。 
首先 来 看 看 面向 过 程 和 面向 对 象 分 别 是 什么 ， 它 们 有 什么 区 别 。 


8.1.1 面向 过 程 


什么 是 面向 过 程 ? 从 字面 意义 上 理解 , 面向 过 程 就 是 用 解决 问题 的 具体 过 程 进行 编程 。 
仔细 思考 一 下 ， 在 学 习 和 工作 中 ， 当 我 们 去 完成 某 个 方程 的 求解 时 ， 一 般 会 按照 公式 的 先 
后 顺序 依次 求解 自 变 量 。 这 种 按照 先后 步骤 去 解决 问题 的 方式 ， 实 质 上 就 是 按照 面向 过 程 
的 思想 去 解决 问题 。 我 们 运用 的 公式 就 是 过 程 ， 按 照 步 骤 解 决 问题 就 是 面向 过 程 。 面 向 过 
程 编程 思想 的 一 般 实 现 步骤 如 下 : 

(1) 将 要 实现 的 功能 描述 为 一 个 有 着 先后 顺序 的 连续 步 又 。 

(2) 依次 完成 这 些 步 又 ， 如 果菜 一 步 的 难度 较 大 ， 又 可 以 将 该 步骤 细 化 为 若干 个 子 步 
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又 ， 以 此 类 推 ， 一 直到 获得 想 要 的 结果 。 
(3) 步 又 的 主体 是 函数 ， 一 个 函数 就 是 一 个 已 封装 的 模块 ， 可 以 实现 一 定 功能 ， 各 个 
子 步 骤 通 过 函数 完成 封装 ， 从 而 实现 代码 的 重用 和 模块 化 编程 。 


8.1.2 面向 对 象 


接 下 来 看 看 面向 对 象 。 在 现实 世界 中 ， 任 何 一 个 操作 或 是 业务 逻辑 的 实现 都 需要 一 个 
实体 来 完成 ， 即 实体 是 动作 的 支配 者 ， 没 有 实体 就 没有 动作 。 所 谓 的 面向 对 象 ， 就 是 用 模 
拟 现 实 世界 的 思维 去 编程 ， 按照 现实 世界 中 的 逻辑 去 分 析 问 题 , 思考 问题 中 涉及 哪些 实体 ， 
且 这 些 实体 具备 哪些 属性 和 方法 (属性 可 以 看 作对 象 的 数据 ， 方 法 可 以 看 作对 象 的 动作 。 
关于 属性 和 方法 我 们 在 下 一 节 中 细 谈 ) ,我 们 又 该 如 何 设计 并 调用 这 些 实体 的 属性 和 方法 
去 解决 具体 的 问题 。 

所 谓 的 模拟 现实 世界 ， 就 是 使 计算 机 的 编程 语言 在 解决 相关 业务 逻辑 时 的 方式 ， 与 真 
实 的 业务 多 辑 的 发 生 保持 一 致 ， 即 每 一 个 动作 的 背后 都 有 一 个 完成 这 个 动作 的 实体 ， 这 样 
任何 功能 的 实现 都 依赖 于 一 个 具体 实体 的 动作 ， 因 此 面向 对 象 可 以 看 作 是 一 个 又 一 个 的 实 
体 在 发 挥 其 各 自 “ 能 力 ” 并 在 内 部 进行 协调 有 序 地 调用 过 程 。 当 采用 面向 对 象 的 思想 解决 
问题 时 ， 可 分 为 下 面 几 步 : 

(1) 分 析 哪 些 动作 是 由 哪些 实体 发 出 。 

(2) 定义 这 些 实 体 ， 为 其 增加 相应 的 属性 和 方法 。 

(3) 实体 去 执行 相应 的 功能 或 动作 。 

关于 上 述 所 说 的 面向 对 象 内 容 我 们 再 多 说 几 句 ， 就 以 流水 线 的 机 器 人 为 例 ， 位 于 不 同 
阶段 的 机 器 人 有 着 不 同 的 作用 ， 它 们 有 着 很 多 属性 〈 如 机 器 人 的 id 或 是 标识 信息 ) ， 也 有 
一 些 方法 〈 如 焊接 机 器 人 有 焊接 方法 ， 喷 潜 机 器 人 有 喷漆 方法 ) ， 这 些 完 成 不 同 工 作 的 机 
器 人 其 实 就 是 我 们 上 文 说 的 实体 ， 而 将 它们 抽象 出 来 的 便 是 类 。 类 用 于 表示 机 器 人 有 哪些 


属性 和 方法 。 我 们 可 以 想象 为 机 器 人 制造 商 就 是 参照 类 来 生产 机 器 人 。 
8 和 2 类 


类 是 Python 面向 对 象 的 主要 工具 ， 它 使 用 class 语句 建立 。 在 本 节 中 我 们 详细 谈 谈 关 
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于 类 的 相关 知识 。 
8.2.1 类 和 实例 


通过 上 节 末 尾 的 内 容 介 绍 ， 我 们 对 类 已 经 有 了 一 定 的 认识 。 类 是 用 来 描述 具有 相同 的 
属性 和 方法 的 实例 的 集合 ， 它 包含 了 这 个 类 的 所 有 实例 所 共有 的 属性 和 方法 。 

类 和 实例 的 关系 是 很 密切 的 ， 但 是 一 定 要 注意 的 是 ， 它 们 是 两 种 不 同 的 类 型 。 接 下 来 
我 们 来 谈 谈 类 和 实例 的 差异 。 

我 们 也 可 以 将 类 理解 为 一 种 产生 实例 的 工厂 ， 不 同 的 工厂 (类 ) 可 以 创造 出 不 同 的 产 
品 (实例 ) 。 只 要 有 需要 ， 通 过 类 制作 多 少 实例 都 是 允许 的 。 例 如 ， 现 有 一 个 台式 计算 机 的 
类 ， 它 有 三 个 属性 和 一 个 方法 。 其 中 CPU、 内 存 容量 和 存储 容量 为 属性 ， 运 行 是 方法 。 我 
们 可 以 用 这 个 类 实例 化 出 多 台 不 同 配 置 的 台式 计算 机 ， 图 8.1 描述 的 正 是 台式 计算 机 类 和 
这 个 类 的 一 个 实例 化 。 


Base Class Object 
ee Create 3 
Instance 
| 人 
Properties Methods Properties Methods 
CPU Run CPU:i7 Run:The computer 
Storage Storage:8G is running 
Memory Memory:1T 


图 8.1 台式 计算 机 类 及 其 实例 化 
8.2.2 ”创建 类 和 实例 


上 文 提 到 过 使 用 class 语句 创建 类 ， 使 用 类 创建 实例 。 接 下 来 通过 程序 8.1 来 简单 创建 
一 个 类 和 它 的 实例 。 
程序 8.1: 


1: class machine: 
2 pass 
Ee 
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4: 也 =machmne0 
5: print(m) 
输出 : 


< main .machine object at 0x0031C4F0> 


分 析 : 

在 Python 中 通过 使 用 class 语句 与 类 的 名 称 来 创建 一 个 新 类 ， 如 程序 的 第 1 行 , 第 2 
行 是 一 个 缩 进 的 pass 语句 , 在 实际 的 开发 中 , 这 个 地 方 代表 类 的 主体 , 关于 类 的 各 种 数据 、 
功能 都 在 这 定义 。 完 成 类 的 定义 之 后 ， 通 过 类 的 名 称 后 跟 一 对 括号 的 方法 创建 这 个 类 的 
对 象 。 

程序 的 输出 表示 machine 类 的 ”main 模块 中 拥有 了 一 个 实例 。 该 实例 对 象 存储 在 计 
算 机 地 址 为 0x0031C4F0 中 《如 果 你 在 计算 机 中 运行 这 段 程序 的 话 ， 输 出 的 实例 对 象 存储 
地 址 可 能 会 不 同 ) 。 


8.2.3 方法 


现 阶段 我 们 可 以 简单 地 将 类 中 的 函数 理解 为 方法 。 但 是 ， 在 方法 中 我 们 还 拥有 一 个 额 
外 的 self 变量 。 关 于 self 和 方法 的 详细 操作 如 程序 8.2 所 示 。 
程序 8.2: 


class machine: 
def printLine(sel): 
print('hellon') 


m= machine() 


1 
2 
3 
4: 
5 
6: mprintLine() 


分 析 : 

程序 8.2 的 大 部 分 和 程序 8.1 相同 ， 方 法 的 使 用 如 第 6 行 所 示 ， 使 用 “.” 来 调用 。 我 
们 再 从 整体 上 来 看 这 个 程序 ， 在 类 中 定义 的 printLine 方法 中 有 个 self 参数， 但 是 ， 在 使 用 
实例 调用 的 时 候 并 没有 加 入 self 参 数 。 这 是 因为 self 代表 的 是 类 的 实例 。 在 定义 类 的 时 候 ， 
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self 是 必须 有 的 ， 但 在 调用 时 不 必 传 入 与 self 相应 的 参数 。 

注意 : 

self 代表 类 的 实例 ， 而 不 是 类 。 这 也 是 类 的 方法 与 普通 的 函数 的 区 别 。 

还 记得 程序 8.1 的 输出 吗 ? 我 们 可 以 使 用 self 来 输出 同样 的 结果 ,详细 看 看 下 面 的 这 
段 程序 : 

class machine: 


def printLine(self): 
print(self) 


m= machine() 
m.printLine() 
Print(m) 


上 述 程序 会 输出 如 下 两 行 相同 的 内 容 : 


<_ main .machine object at 0x0024C490> 
<_ main .machine object at 0x0024C490> 


上 述 程序 明确 地 说 明了 self 的 内 容 ， 就 是 当前 所 在 的 对 象 。 
8.2.4 _init_ 方法 


在 Python 的 类 中 ，_ init 方法 具有 特殊 的 意义 。 它 主要 是 用 于 初始 化 实例 的 属性 ， 
该 方法 会 在 类 的 对 象 被 实例 化 时 立即 运行 ， 以 此 保证 在 此 之 后 的 方法 调用 时 属性 已 存在 ， 
避免 错误 或 异常 发 生 。 我 们 使 用 程序 8.3 来 详细 看 看 _init_ 的 使 用 方法 。 
程序 8.3: 
class machine: 
def _init (self, type): 
self.type = type 


def ptr(self): 
print('This machine is {0} .format(selftype)) 


m= machine('‘engine'’) 
mptrO 


NA 
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输出 : 

This machine is engine 

分 析 : 

程序 8.3 中 machine 类 中 有 两 个 方法 ,注意 : 类 方法 中 必须 要 有 self， 并 且 在 调用 这 个 
功能 时 不 必 对 这 个 参数 进行 赋值 。 接 下 来 我 们 详细 看 看 _init 方法 的 意义 。 

从 程序 输出 可 以 看 出 ,我 们 并 没有 调用 _init 方法 , 但 是 输出 时 的 确 是 输出 了 指定 的 
engine。 这 个 正 是 _init 方法 要 做 的 。 我们 不 必 因 为 在 第 3 行 中 使 用 两 个 type 而 担心 混乱 ， 
这 两 个 是 不 一 样 的 变量 ,等 号 右边 的 type 表示 的 是 要 传 进 来 的 值 ， 它 是 一 个 局 部 变量 。 等 号 
左边 因为 使 用 了 selftype, 这 意味 着 左边 的 type 是 self 代表 的 也 就 是 当前 所 在 对 象 的 一 部 分 。 

我 们 使 用 第 8 行 的 形式 来 创建 了 machine 的 一 个 实例 m， 同 时 ，Python 自动 帮 有 我 们 调 
用 了 _ init 方法 ， 将 这 行 紧 跟 在 类 后 的 参数 传 给 selftype。 

这 时 实例 m 中 已 经 有 了 type 这 一 属性 , 我 们 依旧 是 使 用 selftype 来 指定 它 , 使 用 方法 
见 程序 的 第 6 行 。 


8.2.5 ”类 变量 /对 象 变量 


介绍 完 类 的 方法 后 ， 我 们 来 看 看 类 中 的 变量 : 属性 ， 也 可 以 理解 为 字段 。 它 分 为 类 变 
量 和 对 象 变量 。 其 实 这 并 不 是 什么 稀奇 古怪 的 知识 。 在 上 文 的 machine 类 中 就 已 经 出 现 过 ， 
machine 类 中 的 type 就 是 类 的 数据 ， 有 具体 地 说 ， 它 是 一 个 类 变量 。 

再 次 详细 查看 程序 8.3 的 第 3 行 ， 其 实 属性 只 是 将 变量 绑 定 到 类 和 实例 中 ， 它 们 依托 
于 类 和 实例 ， 仅 能 通过 类 和 实例 使 用 。 因 此 ， 类 和 实例 的 属性 也 称 为 绑 定 到 类 和 对 象 命名 
空间 的 普通 变量 。 

类 和 对 象 的 数据 部 分 有 两 种 : 类 变量 和 对 象 变 量 。 我 们 先 来 看 看 对 象 变 量 ， 它 是 由 类 
的 每 个 独立 的 实例 所 拥有 ， 不 会 被 共享 。 每 个 实例 都 拥有 属于 自己 的 属性 副本 。 而 对 于 类 
变量 ， 它 是 被 该 类 的 所 有 实例 所 共享 的 。 类 变量 只 有 一 个 副本 ， 当 任何 一 个 对 象 对 类 变量 
做 出 改变 时 ， 发 生 的 变动 将 更 新 到 整个 类 的 所 有 对 象 中 。 

接 下 来 ， 通 过 程序 8.4 来 看 看 类 变量 和 对 象 变量 的 具体 用 法 。 

程序 8.4: 


1: class Robot: 
要 num=0 
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def init (self, type): 
self.type = type 


Robotnum += 1 
print("Initializing {0} {1}".format(self.type, Robot.num)) 


def work(self): 
"simulated robot ls working,wear and tear™ 


print("{0} Robot is working" .format(self.type)) 


def destroy(self): 
Print("{0} Robot is being destroyed!".format(self.type)) 


Robotnum -= 1 


if Robot.num 一 0: 
print("robots are destroyed.") 
else: 
print("There are still {}".format(Robot.num)) 


@classmethod 
def print_num(cls): 
print("There are {0} robots".format(cls.num)) 


#Robot class has finished 


T1 = Robot("specialized robot") 
12 = Robot("industrial robot") 


rl.workO 
12.work() 
Robot.print_ num() 


rl.destroy() 
I2.destroy0 
Robotprnt num() 


输出 : 


Initializing specialized robot 1 
Initializing industrial robot 2 
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specialized robot Robot is working 
industrial robot Robot is working 

There are 2 robots 

specialized robot Robot is being destroyed! 
There are still 1 

industrial robot Robot is being destroyed! 
Tobots are destroyed. 

There are 0 robots 


分 析 : 

在 本 程序 中 不 仅 可 以 看 出 类 变量 和 对 象 变量 的 用 法 ， 还 提 到 了 类 方法 。 程 序 创建 了 一 
个 Robot 类 并 定义 了 三 个 方法 和 一 个 类 变量 ， 最 后 通过 调用 方法 来 模拟 机 器 人 的 创建 、 工 
作 、 销 毁 周期 。 

在 程序 的 第 2 行 声 明 的 num 是 属于 Robot 类 的 一 个 类 变量 ， 它 代表 着 实例 化 生产 出 机 
器 人 的 总 个 数 ， 而 第 5 行 初 始 化 方法 中 使 用 self 声明 的 type 属于 对 象 变 量 ， 它 代表 的 是 当 
前 实例 化 生产 机 器 人 的 类 型 。 在 使 用 它们 时 ， 类 变量 和 对 象 变量 的 方法 也 不 相同 。 我 们 通 
过 Robotnum ( 如 程序 的 第 6 行 ) 来 指定 类 变量 ,通过 selftype ( 如 程序 的 第 5 行 ) 来 指定 
对 象 变量 ，self 表 示 变 量 是 当前 实例 所 有 的 。 

注意 : 

除了 使 用 Robot.num 的 方法 调用 类 变量 还 可 以 在 类 内 使 用 self class .num， 在 类 外 
使 用 rl._class_.num (rl 是 Robot 的 对 象 ) 来 调用 类 变量 。 

程序 的 第 25 行 ， 这 里 的 print_ num 和 别 的 方法 不 同 。 实 际 上 print_num 是 一 个 属于 类 
而 不 属于 对 象 的 方法 。 由 于 它 并 不 依附 于 具体 的 对 象 ， 在 调用 类 方法 的 时 候 使 用 
Robot.print_ num() 的 方式 (程序 的 第 34 行 ) ， 直 接 使 用 类 名 指定 。 

注意 : 

在 使 用 类 方法 的 时 候 一 定 要 像 程序 8.4 的 第 24 行 那样 将 方法 标记 为 类 方法 ,具体 来 说 ， 
标记 类 方法 使 用 了 一 种 名 为 装饰 器 的 语法 ， 启 用 @classmethod 等 价 于 调用 下 面 这 条 语句 : 
print num = classmethod(print num)。 

我 们 将 程序 的 第 29 行 和 30 行 作为 切入 点 ， 从 总 体 上 再 次 分 析 程 序 。 

当 Robot 类 声明 完成 后 ， 用 第 29 行 的 方法 构建 了 一 个 Robot 类 的 实例 ， 并 且 参 数 
specialized robot 会 传 入 初始 化 函数 中 ,并 使 用 它 为 对 象 变量 type 赋值 。 该 方法 的 调用 表示 
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有 一 个 新 的 机 器 人 被 创建 ， 因 此 ， 类 变量 num 自 增 1。 

方法 work 虽然 只 是 一 条 输出 语句 ， 我 们 用 它 来 模拟 机 器 人 一 直 在 工作 。 方 法 destroy 
用 一 条 输出 语句 来 模拟 机 器 人 被 销毁 的 过 程 ， 在 机 器 人 被 销毁 后 ， 对 应 类 变量 num 减 1， 
之 后 使 用 让 语句 对 当前 的 num 值 进 行 判断 。 

程序 的 第 30 行 同 29 行 相 似 ， 它 们 构造 了 Robot 类 的 不 同 实例 ， 对 应 着 输出 结果 
的 第 3、4 行 可 以 看 出 ,对 象 变 量 是 每 个 实例 独 有 的 。 通 过 输出 结果 中 机 器 人 的 数量 随 
着 destroy 方法 的 调用 而 变换 ， 我 们 可 以 看 出 类 变量 num 是 被 所 有 了 Robot 类 的 实例 所 
共享 的 。 


8.3 面向 对 象 编程 
在 本 章 刚 开始 的 时 候 ， 我 们 就 提 到 面向 对 象 的 一 个 优点 就 是 对 代码 的 重用 ， 而 重用 的 
-个 重要 实现 方法 就 是 通过 继承 机 制 来 实现 的 。 而 多 态 、 封 装 等 技术 就 穿插 在 其 中 。 
8.3.1 抽象 


抽象 是 把 一 类 事物 的 共有 特征 提取 出 来 ， 它 的 本 质 在 于 提炼 存在 事物 之 间 的 共性 。 例 
如 ， 对 于 人 类 我 们 可 以 抽象 出 姓名 、 年 龄 和 性 别 这 三 个 特性 。 而 细 化 人 类 ， 可 以 继续 分 为 
中 国人 、 美 国人 、 英 国人 等 ， 他 们 有 着 人 类 的 特性 ， 同 时 他 们 还 有 国籍 、 语 言 等 特性 。 这 
个 过 程 就 是 后 文 要 提 到 的 继承 ， 关 于 这 个 过 程 的 图 解 如 图 8.2 所 示 。 


人 类 


姓名 年 龄 ”性 别 


进一步 细 化 。 进一步 细 化 进一步 细 化 


t SR 


中 国人 美国 人 英国 人 
姓名 年 龄 ”性 别 姓名 年龄” 性别 姓名 年 龄 性别 
国籍 语言 国籍 语言 国籍 语言 


图 8.2 分 类 的 细 化 过 程 
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虽然 在 图 8.2 中 第 二 级 《中 国人 等 ) 中 仍 使 用 浅 颜 色 写 了 姓名 等 属性 ， 但 是 实际 上 完 
全 可 以 忽视 它 ， 因 为 我 们 可 以 从 上 一 级 人 类 中 找到 这 些 属性 。 通 过 这 种 形式 ， 不 仅 节省 了 
空间 ， 还 将 问题 的 域 或 是 复杂 度 降 到 了 我 们 可 控 的 范围 。 

在 实际 的 编程 中 ， 我 们 往往 会 根据 实际 情况 将 问题 划分 为 不 同 的 层次 ， 它 是 一 个 金字 
塔 的 结构 ， 越 往 上 ， 抽 象 度 越 高 而 且 涉 及 的 那些 关于 问题 的 细节 越 少 。 由 于 对 问题 的 抽象 
是 整个 面向 对 象 编程 中 的 框架 ， 因 此 如 何 抽象 也 是 面向 对 象 设计 的 难点 。 下 面 我 们 从 一 些 
简单 的 问题 入 手 ， 简 单 讲解 抽象 的 实现 、 继 承 机 制 及 相关 的 技术 。 


8.3.2 ”继承 和 多 态 


在 继承 机 制 中 ， 我 们 定义 基 类 和 派生 类 ， 可 以 将 继承 想象 成 父子 关系 。 基 类 又 称 为 父 
类 、 超 类 ， 派 生 类 又 被 称 为 子 类 。 有 具体 地 说 ， 继 承 描述 的 是 基 类 的 内 容 如 何 传递 给 派生 类 ， 
同时 ， 派 生 类 可 以 继承 它 基 类 的 任何 数据 (属性 和 方法 ) 。 先 通过 下 面 的 程序 看 看 Python 
中 继承 的 形式 : 

# 基 类 


class Base(): 
pass 


# 派 生 类 
class Drived(Base): 
pass 

其 中 ， 基 类 其 实 和 普通 的 类 在 外 形 上 没有 什么 不 同 ， 派 生 类 也 不 过 是 在 类 名 后 用 括号 
表明 自己 的 基 类 (可 以 有 多 个 基 类 ) 。 关 于 继承 及 其 相关 技术 ， 这 一 小 段 代码 是 不 足以 展 
现 的 ， 接 下 来 我 们 来 看 一 个 较为 完整 的 例子 。 

在 人 教 版 高 中 数学 选修 1 一 1 中 的 第 二 章 圆 锥 曲线 (conic section) 与 方程 中 讲 了 椭圆 、 
双 曲 线 和 抛物 线 。 我 们 将 圆锥 曲线 作为 基 类 ， 选 取 椭圆 (ellipse〉 和 抛物 线 (para-curve) 
作为 圆锥 曲线 的 派生 类 ， 其 中 ， 圆 锥 曲线 类 中 有 一 个 属性 和 一 个 方法 : 曲线 的 名 称 和 输出 
曲线 的 方程 ， 派 生 类 中 是 不 同 曲线 的 不 同 的 参数 〈 属 性 ) 和 特有 的 方法 。 

对 此 ， 我 们 当然 可 以 创建 两 个 独立 的 类 来 分 别 表 示 这 两 种 曲线 ， 但 是 ， 若 是 想 要 添加 
一 条 共有 的 特征 〈 如 对 曲线 的 焦点 的 操作 ) ， 就 意味 着 要 对 两 个 类 都 进行 更 新 ， 这 样 会 让 
程序 越 来 越 笨重 ， 也 会 让 开发 者 感到 越 来 越 无 聊 。 因 此 我 们 将 圆锥 曲线 作为 基 类 提出 ， 关 
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于 类 的 具体 设计 如 图 8.3 所 示 。 


Base Class 


Properties ”Methods 
name Ptr Equation 


Derived Class, Derived Class 


Properties Methods Properties Methods 
Parameter a Ptr Eccentricity Parameter p 
Parameter b 


图 8.3 类 的 继承 结构 设计 

通过 图 8.3 的 结构 ， 修 改 曲线 类 时 派生 类 中 都 会 对 应 有 所 体现 ， 同 时 ， 对 派生 类 的 修 
改 仅仅 会 在 当前 类 中 体现 。 另 外 ， 派 生 类 对 象 可 以 看 作 基 类 的 对 象 ， 即 派生 类 对 象 可 以 使 
用 基 类 的 属性 或 方法 (如 图 8.3 中 所 示 ， 椭圆 类 的 对 象 可 以 使 用 曲线 类 的 Ptr_Equation 方法 
输出 ) ， 这 个 特点 被 称 为 多 态 性 。 

至 此 ， 是 不 是 感受 到 了 Python 中 的 继承 机 制 的 优势 ， 但 是 ， 不 得 不 提 的 是 派生 类 不 仅 
可 以 使 用 继承 自 基 类 的 方法 ， 还 可 以 覆盖 掉 基 类 的 方法 例如， 椭圆 要 输出 一 个 通过 属性 
中 参数 确定 的 县 体 椭圆 方程 》。 曲 线 类 及 其 继承 类 的 具体 程序 如 程序 8.5 所 示 。 

程序 8.5 ”曲线 类 及 其 继承 类 的 实现 : 


1: class conical section: 

pd def init (self, name): 

3 self.name = name 

4: print("Determine the name of the curve: {0}".format(name)) 
3 

6 

7 


def ptr_equation(self): 
print("Output {0} equation".format(self.name)) 
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8: 

9: class ellipse(conical section): 

10: "This class is used to simulate elliptic equation'" 
ld: def init (self, name, a, b): 

] conical section. init (self, name) 
13: selfa= a 

14: selfb=b 

15: 

16: def ptr_eccentricity (self): 

17: print("the eccentricity of this ellipse is {0}".format((1-self.b**2/self.a**2)**0.5)) 
18: 

19: def ptr_equation(self): 

20: conical section.ptr_equation(self) 

外 print("x^2/{0}^2 + y^2/{0}^2 = 1".format(self.a, self.b)) 
22: 

23: class paracurve(conical section): 

24: "This class is used to simulate paracurve™ 
33: def _init (self, name, p): 

26: conical section. init (self, name) 
27: selfp=p 

28: 

29: def ptr_equation(self): 

30: conical section.ptr_equation(self) 

31: Print("y^2 = {0} * x".format(2*self.p)) 
32: 

33: e= ellipse("elliptic", 5,3) 

34: e.ptr equation() 

35: eptr_eccentricityO 

36: print() 

37: p=paracurve("para-curve", 7) 

38: Pp.ptr_equation() 

输出 : 

Determine the name of the curve: elliptic 

Output elliptic equation 


WS = 
the eccentricity of this ellipse is 0.8 


Determine the name of the curve: para-curve 
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Output para-curve equation 

y*2=14*x 

分 析 : 

我 们 先 来 看 看 ellipse 类 ， 在 定义 这 个 类 时 类 名 后 跟 一 个 含有 基 类 类 名 的 元 组 ， 当 然 了 
元 组 中 的 基 类 不 会 只 局 限于 一 个 -派生 类 ellipse 中 第 12 行 通过 类 名 显示 调用 基 类 的 _init 
方法 ， 这 里 还 有 些 细 节 要 强调 一 下 : 调用 基 类 init 方法 需要 把 派生 类 中 的 self 作为 参数 
传 入 。 若 是 派生 类 中 没有 定义 _init 方法 ，Python 会 自动 调用 基 类 的 ”init 方法 。 

“派生 类 继承 了 基 类 的 一 切 ”这 不 是 一 名 空话， 我 们 使 用 同调 用 基 类 的 _init 方法 类 
似 的 手段 来 调用 基 类 的 其 他 方法 ， 方 法 名 前 面 加 上 基 类 名 作为 前 级 ， 再 将 派生 类 的 self 以 
及 其 他 参数 传 入 ( 如 程序 的 第 30 行 ) 。 

程序 的 第 34 行 ， 当 派生 类 调用 类 中 与 基 类 同名 的 方法 时 , 调用 的 是 派生 类 的 方法 。 这 
是 Python 继承 中 的 一 种 机 制 : Python 总 是 会 从 当前 的 实际 类 型 中 开始 寻找 方法 ， 当 在 当前 
类 中 没 找到 时 就 会 在 该 类 所 属 的 基 类 中 依照 顺序 向 上 逐个 寻找 基 类 的 方法 ， 直 到 找到 该 方 
法 。 派 生 类 定义 与 基 类 同名 的 方法 并 通过 派生 类 调用 该 方法 时 会 让 基 类 方法 隐藏 ， 这 种 机 
制 也 被 称 为 通过 继承 覆盖 基 类 方法 。 


8.3.3 ”抽象 类 和 抽象 方法 


抽象 类 和 抽象 方法 和 普通 的 类 、 方 法 没有 太 大 的 区 别 , 存在 抽象 方法 的 类 便 是 抽象 类 。 
抽象 方法 表示 一 个 没有 实现 的 方法 ， 同 时 抽象 类 也 不 能 被 实例 化 。 子 类 继承 抽象 类 时 一 定 
要 重 写 抽象 方法 ， 和 否则 会 报错 。 

有 了 上 一 小 节 的 学 习 ， 我 们 对 继承 机 制 已 经 有 了 一 定 的 了 解 ， 在 这 里 我 们 直接 取出 程 
序 8.5 中 的 部 分 内 容 并 将 其 改造 为 一 个 抽象 类 及 其 继承 子 类 ， 如 程序 8.6 所 示 。 

程序 8.6 ”抽象 类 的 实现 : 
from abc import ABCMeta,abstractmethod 
class conical section(metaclass=ABCMeta): 

def printInfo(self): 

print("this is a abstract class") 


(@abstractmethod 
def ptr_equation(self): 
pass 


RD 
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9: 

10: class ellipse(conical section): 

Uf: def ptr_equation(self): 

12: print("this is used to print ellipse's equation") 
3: 

14: e=ellipse0 

15: e.printInfo() 

16: eptr_ equation0 

输出 : 


this is a abstract class 

this is used to print ellipse's equation 

分 析 : 

程序 的 第 1 行将 ABC 模块 的 内 容 引入 程序 ,这 个 模块 为 抽象 类 的 实现 提供 支持 ，ABC 是 
Abstract Base Class 的 缩写 。 程 序 的 第 2 行使 用 metaclass=ABCMeta 将 conical_section 类 声明 为 
抽象 类 ( 没有 这 步 声 明 conical section 类 也 是 抽象 类 ， 因 为 类 中 有 抽象 方法 ) ， 第 6 行使 用 装 
饰 器 将 类 中 的 ptr equation 方法 声明 为 抽象 方法 ， 同 时 ， 方 法 体 中 使 用 pass 表示 无 任何 内 容 。 

接 下 来 使 用 ellipse 类 来 继承 抽象 类 ， 一 旦 选择 继承 抽象 类 那么 就 一 定 要 重 写 对 应 的 抽 
象 方法 。 因此, 程序 的 第 11 行 对 抽象 方法 重 写 ,完成 之 后 便 可 以 通过 子 类 实例 调用 具体 的 
方法 。 


为 什么 要 有 抽象 方法 


学 习 完 上 述 抽象 的 知识 后 , 你 是 否 觉得 抽象 方法 的 存在 没有 什么 意义 ? 貌似 在 程序 8.6 
中 我 们 绕 了 一 圈 却 没 多 实现 什么 功能 。 但 是 ， 从 整体 的 设计 上 讲 ， 使 用 抽象 类 可 以 达到 规 
范 子 类 方法 的 作用 ， 它 在 实际 的 开发 中 有 着 重要 的 意义 。 例 如 ， 我 定义 了 一 个 汽车 的 类 ， 
它 有 启动 、 行 驶 、 和 刹车 、 停 止 4 个 抽象 方法 。 至 于 不 同 品牌 、 不 同类 型 的 汽车 是 钥匙 启动 
还 是 一 键 启动 ， 跑 得 多 快 ， 什 么 方式 刹车 这 些 不 同 的 子 类 有 不 同 的 实现 方式 。 但 是 ， 给 子 
类 自由 发 挥 的 空间 的 前 提 就 是 子 类 中 一 定 要 实现 那 4 个 抽象 方法 ,否则 就 不 是 汽车 了 。 


8.3.4 封装 


下 面 来 谈 谈 类 的 封装 , 顾名思义 , 封装 就 是 将 写 在 类 中 的 某 些 信息 对 外 隐藏 。 在 Python 
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中 我 们 对 想 要 特殊 处 理 的 变量 ， 使 用 非常 规 的 命名 方式 来 告诉 计算 机 这 些 变量 要 做 特殊 处 
理 ， 先 来 看 如 何 通 过 命名 约定 访问 权限 ， 如 表 8.1 所 示 。 


表 8.1 命名 及 其 访问 权限 


序号 对 应 权限 
1 公开 (public) 
3 语法 上 视 为 公开 , 但 是 内 部 约定 含义 为 “可 以 被 访问 , 但 请 视 为 私有 ， 不 要 
随意 访问 ” 
3 特殊 属性 
4 私有 〈private) ， 不 能 被 继承 类 引用 ， 不 鼓励 从 外 部 访问 


对 于 表 8.1 中 的 命名 及 其 访问 权限 我 们 用 到 最 多 的 是 第 1 条 和 第 4 条 。 不 过 对 于 私有 
权限 ， 你 想 明 白 为 什么 要 使 用 它们 了 吗 ? 从 类 本 身 的 角度 来 说 ， 使 用 私有 权限 最 大 的 作用 
在 于 类 可 以 管理 自己 的 变量 、 方 法 。 也 就 是 说 当 你 想 访 问 类 中 内 容 时 ， 类 可 以 根据 内 容 的 
敏感 度 选择 对 其 保护 。 先 来 看 下 面 的 程序 8.7。 

程序 8.7 封装 : 


1: class ellipse(): 

2 "This class is used to simulate elliptic equation'" 

Ea def _init (self, name, a, b): 

4: selfname = name 

$: self a=a 

6: self_b=b 

了 

8: def get_a(self): 

9: fake a=self a+l 

10: return fake a 

1 

2 def get_b(selj: 

13: fake b=self b+1 

14: Tetum fake b 

Js 

16: def ptr eccentricity(self): 

7: print("the eccentricity of this ellipse is {0}" 
.format((1-self. b**2/self. a**2)**0.5)) 

18: 


19: def ptr_equation(self): 


第 8 章 面向 对 象 “3 


20: print("the ellipse: {}".format(self. name)) 
21: print("x^2/{0}^2 + y^2/{0}^2= 1".format(self. _a, self._ b)) 


23: e= ellipse("elliptic", 5,3) 
24: print(e.get a()) 


分 析 : 

程序 8.7 的 大 部 分 内 容 截 取 自 程序 8.5。 因 为 对 于 一 个 椭圆 来 说 ， 最 重要 的 便 是 它 的 两 
个 参数 a 和 b， 在 程序 中 的 第 5、6 行 ， 我 们 将 参数 设置 为 私有 变量 ， 对 此 ， 我 们 在 类 中 添 
加 两 个 返回 参数 的 函数 : get a 和 get b。 通 过 观察 这 两 个 函数 的 内 容 我 们 也 可 以 进一步 理 
解 封装 的 意义 ， 没 错 ， 在 函数 中 我 们 分 别 对 参数 a，b 进行 保护 ， 最 后 将 这 个 保护 的 参数 作 
为 真 的 参数 传递 出 类 。 这 也 保证 了 类 的 安全 性 。 

程序 的 第 16 行 我 们 将 输出 曲线 方程 的 方法 也 设置 为 私有 的 , 因此 使 用 类 的 实例 不 能 对 
其 进行 访问 。 类 中 方法 和 变量 的 命名 都 遵从 表 8.1 中 的 规则 。 

在 这 里 还 要 强调 一 下 ， 私 有 不 允许 通过 实例 对 象 直接 访问 ， 也 不 支持 通过 继承 访问 。 


8.4 ”面向 对 象 和 面向 过 程 的 比较 


学 习 到 这 里 ， 面 向 对 象 部 分 已 经 讲 完 了 。 现 在 我 们 会 明显 地 感觉 到 两 者 之 间 有 着 很 大 
的 区 别 。 面 向 过 程 简单 直接 ， 易 于 入 门 理解 ， 模 块 化 程度 较 低 。 eda 
程 较为 复杂 ， 不 易 理解 ， 模 块 化 程度 较 高 。 关 于 两 者 比较 的 总 结 如 

(1) 两 者 都 可 以 实现 代码 重用 和 模块 化 编程 ， er 面向 
对 象 的 封装 性 更 强 。 

(2) 面向 对 象 的 思维 方式 更 加 贴近 于 现实 生活 ， 更 容易 解决 复杂 的 业务 逻辑 。 从 前 期 
开发 角度 上 来 看 ， 面 向 对 象 远 比 面向 过 程 复 杂 ， 但 是 从 维护 和 扩展 功能 的 角度 上 来 看 ， 面 
向 对 象 远 比 面向 过 程 要 简单 。 

(3) 面向 过 程 与 面向 对 象 的 抉择 ， 对 于 一 个 新 手 而 言 ， 从 两 者 的 对 比 就 可 以 看 出 ， 当 
我 们 的 业务 逻辑 比较 简单 时 ， 使 用 面向 过 程 能 更 快 实现 。 前 文中 也 提 到 过 ，Python 中 面向 
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对 象 编程 是 可 选 的 。 但 是 当 我 们 的 业务 逻辑 比较 复杂 时 ， 为 了 将 来 的 维护 和 扩展 ， 还 是 面 
向 对 象 更 为 合适 。 

再 使 用 一 个 通俗 点 的 例子 对 比 ， 面 向 过 程 编程 就 像 一 个 绩 密 的 流水 线 ， 从 头 到 尾 一 气 
呵 成 ， 将 所 有 的 语句 都 在 流水 作业 中 执行 。 而 面向 对 象 编程 就 好 像 拼 积木 ， 我 们 将 每 个 模 
块 定义 好 ， 放 在 一 旁 ， 用 到 哪个 就 将 其 取 来 ， 最 后 堆积 成 一 个 完整 的 程序 。 


8.5 总 结 


如 果 只 是 通过 了 解 面 向 对 象 的 概念 来 学 习 本 章 知识 可 能 会 感到 很 吃力 ， 本 章 的 很 多 术 
语 可 能 会 今 人 感到 困惑 。 在 学 习 本 章 时 ， 可 以 将 概念 和 程序 同时 学 习 ， 双 边 相互 参考 并 且 
将 抽象 的 理论 知识 同 现实 的 具体 事物 联想 到 一 起 。 如 果 你 之 前 接触 过 C++ 或 是 Java 的 面向 
对 象 ， 那 么 本 章 讲 的 内 容 应 该 很 平淡 吧 。 若 是 之 前 没有 接触 过 也 没有 关系 ，Python 将 面向 
对 象 的 很 多 复杂 性 质 都 去 除了 ， 我 们 可 以 将 Python 中 的 大 部 分 内 容 简 化 成 Object attribute 
这 一 表达 式 。 学 到 现在 ， 我 们 对 这 个 表达 式 已 经 不 再 陌生 了 ， 不 管 是 方法 还 是 属性 ， 都 是 
通过 "." 来 调用 的 。 关 于 面向 对 象 我 们 先 介绍 到 这 里 ， 但 是 关于 面向 对 象 的 思考 和 练习 一 定 
不 要 到 此 为 止 ， 因 为 面向 对 象 不 仅 是 一 门 编程 技术 ， 还 是 一 种 经 验 ， 这 种 经 验 不 被 某 种 编 
程 语言 所 限制 。 


8.6 练 习 


(1) 通过 添加 子 类 内 容 来 修改 父 类 和 直接 修改 父 类 内 容 哪 一 个 更 好 ? 为 什么 ? 
(2) 详细 说 说 类 和 之 前 讲 过 的 模块 之 间 的 关系 。 
(3) 下 面 这 段 程序 有 哪些 错误 ? 


class ellipseO: 
"This class is used to simulate elliptic equation'" 
def _init (self, name, a, b): 
self.name = name 
self.a=a 
selfb=b 
def ptr eccentricity(self): 
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print("the eccentricity of this ellipse is {0}" 
.format((1-self. b**2/self. a**2)**0.5)) 
def ptr_equation(self): 
print("the ellipse: {}".format(self.name)) 
print("x^2/{0}^2 +y^2/{0}^2 = 1".format(self. a, self._b)) 


class ptr(ellipse): 
def init (self): 
ellipse._ init ("smaller ellipse", 3, 2) 
def ptr eccentricity(self): 
print("this is the ellipse equation") 
def ptr_parameter(self): 
print("The parameter of this ellipse is {0} and {1}".format(ellipse.a, ellipse.b) 


p=ptrO 

Pp.ptr_parameter() 

披荆斩棘 ( 选 做 ) : 

为 你 的 学 校 编写 一 个 人 员 管 理 程序 ,用户 为 教师 和 学 生 。 他 们 共有 的 特征 为 姓名 、 年 
龄 、 住 址 以 及 假期 。 另 外 ,教师 独 有 特征 : 薪水 、 教 学 ; 学 生 独 有 特征 : 成 绩 、 学 费 、 上 课 。 
要 求 画 出 类 设计 图 并 编写 程序 ( 程序 中 的 动作 可 以 使 用 输出 语句 模拟 ) 。 
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学 习 到 现在 ， 我 们 编写 的 程序 应 该 都 或 多 或 少 地 出 现 过 异常 ， 也 许 是 不 小 心 ， 也 可 能 
是 逻辑 错误 或 是 程序 以 外 的 问题 。 不 管 是 什么 原因 ， 异 常 是 我 们 不 希望 看 到 的 。 在 本 章 中 
我 们 来 看 看 关于 异常 的 一 些 操作 。 通 过 本 章 学 习 ， 需 要 掌握 : 

口 什么 是 异常 。 

口 异常 的 用 途 。 

口 异常 的 处 理 方法 。 

口 ” 自 定义 异常 的 方法 。 


9.1 为 什么 要 使 用 异常 


异常 会 让 我 们 从 一 个 流程 中 跳出 来 ， 举 个 例子 ， 工业 制 秘 “人 教 版 高 中 化 学 必修 1 最 
后 一 节 ) ， 氨 的 工业 制备 是 通过 氮气 和 氧气 在 高 温 、 高 压 加 催化 剂 的 条 件 下 完成 的 。 倘 若 
这 三 个 条 件 有 一 个 不 满足 ， 化 学 反应 就 不 会 顺利 进行 。 假 设 我 们 的 设备 都 已 经 就 绪 ， 但 是 
有 条 件 不 满足 ， 可 能 是 温度 不 够 ， 可 能 压力 达 不 到 要 求 ， 或 是 催化 剂 失效 ， 并 不 确定 。 但 
是 设备 都 在 准备 着 ， 我 们 需要 快速 地 排除 异常 。 若 是 不 能 快速 排除 异常 ， 只 能 放弃 此 次 制 
备 ， 这 会 导致 很 大 的 损失 。 

上 述 情况 正 是 异常 要 做 的 ， 我 们 可 以 在 三 个 条 件 处 添加 异常 ， 若 是 出 现 例外 ， 终 止 制 
备 过 程 进入 异常 管理 器 。 在 异常 管理 器 中 完成 对 当前 异常 的 处 理 ， 不 管 是 升温 、 加 压 还 是 
更 换 催化 剂 ， 总 之 可 以 处 理 例外 ， 让 反应 回 到 正轨 。 


9.2 异常 的 作用 


通过 上 面 工业 制 氨 的 例子 ， 我 们 已 经 明白 了 什么 是 异常 。 但 在 程序 中 ， 异 常 的 作用 不 
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仅仅 只 是 用 于 排除 例外 ， 接 下 来 看 看 异常 的 具体 作用 。 


1. 错误 处 理 
在 程序 运行 中 发 生 错误 时 ,Python 会 向 外 抛 出 异常 。Python 中 有 默认 的 异常 处 理 机 制 ， 


它 会 停止 程序 ， 打 印 出 错 信息 。 我 们 也 可 以 使 用 try 语句 来 捕捉 异常 并 从 异常 中 恢复 。 


2. 时 间 通 知 

异常 也 可 以 用 于 向 外 抛 出 程序 的 状态 信息 。 例 如 ， 搜 索 程序 在 失败 的 时 候 返回 一 个 异 
常 信号 。 

3. 终止 行为 


如 


9 


使 用 Python 的 try/finally 语句 可 以 确保 无 论 是 否 有 异常 都 会 执行 finally 中 的 语句 。 例 
在 文件 中 搜索 程序 , 无 论 搜索 过 程 是 否 出 现 意外 ， 都 要 执行 finally 语句 中 的 关闭 文件 。 


9.3 异常 与 错误 


异常 和 错误 是 不 一 样 的 ， 下 面 通过 程序 9.1 来 介绍 一 下 它们 之 间 的 区 别 。 
旺 序 9.1: 
Print("hello") 


input("Please input something") 
报错 : 
Traceback (most recent call last): 
File "/home/leo/PycharmProjects/error/error.py", line 1, in <module> 
Print("hello") 
NameError: name 'Print is not defined 
分 析 : 
程序 的 第 1 行 故意 将 print 函数 写成 Print ( 首 字 母 大 写 ) ,这样 Python 会 抛 出 一 个 语 


法 错误 ,为 了 方便 我 们 纠 错 ，Python 还 会 打印 出 检测 到 的 错误 发 生 的 位 置 。 接 下 来 我 们 将 
第 1 行 错误 改正 或 是 将 第 1 行 删 掉 ， 再 次 运行 程序 。 这 次 的 重点 放 在 那 条 输入 语 名 上， 此 
时 程序 要 尝试 去 读 取 输入 的 内 容 。 我 们 按 下 CtrlHD 组 合 键 ， 这 表示 一 个 文件 结尾 符号 ， 但 
是 它 不 应 该 在 这 里 出 现 ， 所 以 Python 报 出 了 异常 : 
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Traceback (most recent call last): 

File "/home/leo/PycharmProjects/hello/hello.py", line 3, in <module> 
input("Please input something") 
EOFError: EOF when reading a line 


此 处 是 指出 了 一 个 EOFError 的 错误 ,并且 使 用 的 是 Python 顶层 默认 的 异常 处 理 方式 ， 
它 会 立即 终止 程序 。 接 下 来 我 们 来 看 看 如 何 捕获 异常 并 处 理 。 在 将 具体 的 异常 处 理 之 前 ， 
让 我 们 先 理 清 概念 ， 看 看 异常 和 错误 的 区 别 ， 如 表 9.1 所 示 。 

表 9.1 错误 与 异常 比较 
错误 异常 

错误 可 分 为 语法 错误 和 人 逻辑 错误 。 
语法 错误 : 代码 不 符合 语言 的 语法 。 
逻辑 错误 : 代码 编写 逻辑 上 的 错误 ,程序 不 会 报错 
但 执行 结果 与 预期 不 符 


程序 是 可 以 运行 的 ， 但 是 在 运行 过 程 中 遇 到 错误 ， 
会 使 程序 意外 退出 
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先 来 看 看 程序 9.2， 它 是 程序 9.1 的 扩展 。 
程序 9.2 异常 处 理 : 


try: 
str = input("Please input something: ") 
except EOFError: 
print(“why?") 
else: 
print("right") 


DT Wn 


print("continue this program") 


输出 : 


Please input something: ^D 
why? 
continue this program 
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分 析 : 

程序 中 将 有 可 能 引发 异常 或 是 错误 的 语句 ( 如 程序 的 第 2 行 ) 放 在 try 中 ，except 后 面 
紧 跟 异常 类 型 ( 如 程序 的 第 3 行 的 EOFError ) ， 并 在 后 续 代 码 块 中 列 出 对 上 述 异 常 类 型 做 
出 的 处 理 。 如 果 没 有 提供 异常 类 型 ， 它 将 处 理 所 有 类 型 的 异常 。 

当 try 语句 用 于 捕获 异常 并 从 中 恢复 时 ， 至 少 要 有 一 名 except 与 之 对 应 ， 因 为 仅仅 抛 
出 异常 是 没有 什么 作用 的 。 若 是 没有 异常 被 处 理 ， 那 么 Python 会 调用 默认 处 理 器 ， 它 只 会 
终端 执行 并 打印 出 错误 信息 。 

else 语句 与 try…except 相关 联 ， 它 的 作用 是 在 没有 异常 发 生 的 时 候 执行 某 些 操作 。 

接 下 来 我 们 对 应 输出 看 看 程序 中 语句 的 效果 。 输 出 的 第 1 行 对 应 的 是 程序 中 的 input 
语句 ， 其 中 “^D” 表 示 的 是 按 下 了 Ctrl+D 组 合 键 ， 这 正好 触发 了 一 个 EOFError 类 型 的 异 
常 ， 转 而 进入 程序 的 第 4 行 的 异常 处 理 语句 ， 完 成 处 理 后 继续 执行 程序 ， 进 入 程序 的 第 8 
行 输出 continue this program。 
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Python 中 有 很 多 标准 异常 ， 常 见 的 如 表 9.2 所 示 。 


表 9.2 ”Python 中 常见 的 异常 


序号 异常 解释 
1 OrverflowError 数值 运算 超出 最 大 限制 
名 ZeroDivisionError 除 (或 取 模 ) 零 (所 有 数据 类 型 ) 
3 “| OSEror 操作 系统 错误 
4 StopIteration 迭代 器 没有 更 多 的 值 
时 FloatingPointError 浮 点 计算 错误 
6 | IOEror 输入 /输出 操作 失败 
7 MemoryError 内 存 溢出 错误 〈 对 于 Python 解释 器 不 是 致命 的 ) 
8 “| EOFErmor 没有 内 建 输入 ， 到 达 EOF 标记 


但 是 ， 这 些 对 于 编程 要 面 对 的 复杂 环境 来 说 还 是 不 够 的 。 因 此 ，Python 允许 我 们 自己 
定义 一 些 异常 类 型 并 且 通 过 raise 语句 来 引发 。 我们 要 注意 的 是 : 自 定义 的 异常 必须 是 直接 
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或 是 间接 从 属于 Exception〈 异 常 ) 类 的 派生 类 。 
接 下 来 通过 一 个 实验 室 制作 氮气 〈 人 教 版 高 中 化 学 必修 1) 的 例子 来 了 解 一 下 如 何 自 
定义 异常 ， 实 验 如 图 9.1 所 示 。 


图 9.1 实验 室 制 氨 气 
氮气 的 实验 室 制 法 是 通过 氧化 铵 晶体 和 消 石灰 固体 经 加 热 条 件 反应 产生 氮气 ， 加 热 作 
为 反应 的 重要 条 件 ， 缺 少 它 反应 不 会 进行 。 现 将 是 否 加 热 条 件 放 入 异常 ， 如 果 没 有 加 热 条 
件 〈 如 燃料 不 足 等 原因 ) ， 程 序 抛 出 异常 ， 检 查 酒精 灯 ， 最 后 刷洗 实验 器 材 ， 药 品 归 位 。 
具体 程序 如 程序 9.3 所 示 。 
是 序 9.3 ”模拟 无 加 热 条 件 的 实验 室 制 氮气 反应 : 


l: class NoHeating(Exception): 

2 "Simulate the alcohol lamp does not work" 
E def _init (self state): 

4: Exception. init (self) 

5: 

6: Self state = state 

YE 

8: “”# 假 设 酒精 灯 处 于 燃油 耗 尽 状态 

9: state = "exhausted" 

10: 

Ll "hy: 

12: # 只 有 代表 准备 好 了 

3: if state (= "y": 

14: Taise NoHeating(state) 

15: except NoHeating as nh: 

16: print("The alcohol lamp is {0},we are checking it.".format(state)) 


M7: Li 
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18: # 模 拟 正在 添加 酒精 ……- 


20: print("It's done!") 

21: finally: 

2 print("Chemical reaction continue***\n") 

23: print("The experiment has been finished and retured the equipment.") 


1 The alcohol lamp is exhausted,we are checking it. 
2: It's done! 

3: Chemical reaction continue… 

4 


The experiment has been finished and returned the equipment. 


分 析 : 

通过 这 个 程序 我 们 可 以 看 出 如 何 自 定义 异常 。 首 先 ， 程 序 的 第 1 行 中 创建 了 我 们 自己 
的 异常 类 ， 它 是 Exception ( 异常 ) 类 的 派生 。 它 只 接受 一 个 状态 信息 并 存储 在 类 的 state 
中 。 我 们 在 程序 中 设 定 state 为 exhausted (燃料 用 尽 ) 以 此 来 模拟 一 种 异常 情况 。 

在 try 的 子 句 中 ,如果 state 不 是 'y' 就 抛 出 自 定义 的 异常 类 NoHeating。 接 下 来 在 except 
子 名 中， 我 们 将 错误 类 as ( 存储 ) 成 异常 nh 并 在 except 子 句 中 打印 出 state 并 对 缺少 燃料 
做 出 处 理 ( 此 处 并 没有 任何 代码 是 关于 添加 燃料 的 , 程序 中 仅仅 是 使 用 注释 信息 进行 标注 ， 
位 于 程序 的 第 17~19 行 ) 。 处 理 完 成 后 ， 输 出 完成 提示 信息 。 

最 后 ， 程 序 的 第 21 行 ， 我 们 会 注意 到 这 是 一 个 很 陌生 的 语句 finally， 它 表示 无 论 try 代 
码 块 中 发 生 了 什么 ， 一 定 会 在 最 后 时 执行 收尾 的 代码 。 就 像 程 序 模拟 的 实验 ， 不 管 程序 有 什 
么 意外 最 后 总 会 实验 结束 ， 归 还 器 材 。 关 于 finally 的 一 些 具体 事项 我 们 在 下 一 节 详 细 介 绍 。 


9.6 finally 语 身 


在 上 一 节 中 , 我 们 已 经 大 致 了 解 finally 语句 的 作用 。 由 于 它 一 定 会 在 最 后 执行 的 特点 ， 
finally 语句 也 被 称 为 终止 行为 或 是 清理 语句 。 我 们 用 程序 9.4 详细 谈 谈 finally。 
程序 9.4: 


1 fy: 
2 text = input("please input something : ") 
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3: finally: 
4: print("finally") 
5: print("The last one") 


输出 1: 

please input something : dd 
finally 

The last one 


输出 2: 


please input something : ^D 
Traceback (most recent call last): 
File "/home/leo/PycharmProjects/error/error 2.py", line 2, in <module> 
text = input("please input something : ") 
EOFError: EOF when reading a line 
finally 


分 析 : 

对 于 程序 9.4 首先 要 强调 的 是 程序 没有 使 用 我 们 常见 的 try…except 的 组 合 方式 ， 而 
是 使 用 了 try…finally 的 组 合 方式 。try…except 这 种 方式 用 于 捕获 异常 并 从 中 恢复 ,而 对 
于 try…finally， 可 以 确保 无 论 try 内 的 代码 是 否 发 生 了 异常 ，finally 中 的 终止 行为 一 定 会 
运行 。 例 如 ， 我 们 可 以 使 用 try…except 来 捕获 读 取 文 件 过 程 中 程序 的 异常 并 最 后 使 用 
try…finally 来 确保 文件 关闭 。 当 然 了 ， 也 可 以 使 用 程序 9.3 那 种 try…except…finally 的 
结构 。 

回 到 程序 9.4 中 ,我 们 对 使 用 input 输入 来 制造 异常 已 经 是 非常 熟悉 了 ， 重 点 看 看 输出 
1 和 输出 2。 不 管 有 没有 异常 ，finally 都 会 被 打印 出 来 ， 而 print("The last one") 这 条 语句 却 
不 是 。 


异常 是 一 种 比较 高 级 的 控制 流 设备 ， 它 可 能 是 由 Python 引发 ， 也 可 能 是 由 程序 自身 引 
发 ， 在 编程 时 要 先 分 析 并 选取 异常 条 件 。 我 们 在 这 里 介绍 的 内 容 是 比较 基础 的 ， 要 求 大 家 
熟练 应 用 异常 机 制 。 
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(1) 列 出 异常 的 几 个 优点 。 

(2) 如 何 从 异常 中 恢复 程序 ? 

(3) 列 出 触发 异常 的 几 种 方式 。 

披荆斩棘 ( 选 做 ) : 

编写 程序 模拟 工业 制 氨 ， 要 求 将 高 温 、 高 压 、 催 化 剂 这 三 个 条 件 作为 不 同 的 异常 。 
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本 章 将 学 习 Python 中 的 集合 数据 类 型 并 通过 回顾 概率 的 基本 概念 ， 了 解 其 实际 应 用 。 
通过 本 章 的 学 习 ， 需 要 掌握 : 

口 ”熟练 使 用 Python 中 关于 集合 的 操作 。 

口 了 解 概率 的 应 用 实例 。 

口 ”理解 基于 概率 的 朴素 贝 叶 斯 算法 。 


10.1 理解 Python 中 的 集合 类 型 


Python set 是 基本 数据 类 型 的 一 种 集合 类 型 ， 它 与 数学 上 的 集合 概念 相同 ， 在 Python 
中 集合 分 为 可 变 集合 (set) 和 不 可 变 集合 〈frozenset) 两 种 。 以 下 将 具体 介绍 集合 的 创建 、 
添加 、 并 集 、 交 集 、 差 集 等 实用 操作 。 

以 学 校 食堂 每 天 购 进 水 果 的 品种 构成 的 集合 为 例 , 假设 第 一 天 购买 水 果 的 品种 为 苹果 、 
草花 、 香 秦 、 梨 ， 第 二 天 购买 的 品种 为 苹果 、 栅 桃 ， 那 么 请 问 : 

(1) 两 天 共 买 过 多 少 样 水 果 ， 其 品种 有 哪些 ? 

(2) 两 天 所 买 相同 水 果 的 品种 有 哪些 ? 

(3) 两 天 中 单独 购买 的 水 果 的 品种 又 有 哪些 ? 

我 们 以 代码 作答 ， 上 有 具体 程序 如 程序 10.1 所 示 。 

程序 10.1 食堂 进 购 水 果 案 例 : 


first_day_food = set(['apple', 'strawberry', 'banana', 'pear]) 

second day_food= set|) 

second_day_food.add(‘apple') 

second day_food.add('cherry’) 

union food = first_day_food.union(second_ day_food) 

print("{0} kinds of fruit were bought in two days, they are {1}" 
.format(len(union food), union food)) 


rd 
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7: the _ same food= first_day food.intersection(second day food) 

8: print("{0} kinds of the same fruit were bought in two days, they are {1}" 
.format(len(the_same food), the_same food)) 

9: first day_diff food= first day food.difference(second day food) 

10: second day_diff food = second day food.difference(first day food) 

11: print("The first day of the purchase of fruit are:{0}".format(first_day_diff food)) 

12: print("The second day of the purchase of fruit are: {0}".format(second day_ diff food)) 


输出 : 

5 kinds of fruit were bought in two days, they are {banana', 'strawberry', 'apple', ‘pear', 'cherry'} 

1 kinds of the same fruit were bought in two days, they are fapple'} 

The first day of the purchase of fruit are: {'pear’, ‘banana', 'strawberry'} 

The second day of the purchase of fruit are: {'cherry'} 

分 析 : 

程序 的 第 1 一 4 行为 构建 集合 与 添加 集合 元 素 的 代码 ， 用 于 构建 两 天 购买 的 水 果 清 
单 ， 接 着 分 别 调用 集合 的 union、intersection 和 difference 函数 ， 求 取 集 合 的 并 集 、 交 集 
与 差 集 。 

通过 上 述 例子 ， 我 们 已 经 学 会 了 集合 的 基本 操作 ， 而 值得 注意 的 是 ， 集 合 是 无 序 的 、 
不 重复 的 数据 类 型 ， 因 此 不 支持 索引 ， 不 支持 切片 ， 也 不 支持 重复 。 

我 们 可 以 用 Venn ( 文 氏 ) 图 来 表示 程序 10.1。 

首先 ，second day 当中 是 空 的 ， 如 图 10.1 所 示 。 


first_day second_day 


8 


"apple" 
"strawberry" 
"banana" 
"pear" 


图 10.1 无 交集 


在 second_day 添加 元 素 后 ， 可 以 看 出 与 first_day 交集 有 apple， 如 图 10.2 所 示 。 
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first_day Second_ day 


"strawberry" 
"banana" 


"pear" 


图 10.2 ”有 交集 apple 


通过 图 10.1 和 图 10.2 可 以 看 出 两 个 集合 之 间 的 关系 。 
10.2 ”概率 基础 知识 


概率 亦 称 “或 然 率 ”“ 几 率 ”。 它 是 反映 随机 事件 出 现 的 可 能 性 大 小 的 量度 。 随 机 事 
件 是 指 在 相同 条 件 下 ， 可 能 出 现 也 可 能 不 出 现 的 事件 。 例 如 ， 在 日 常生 活 中 ， 有 些 事件 是 
必然 发 生 的 ， 有 些 是 不 可 能 发 生 的 ， 但 更 多 的 事件 发 生 的 可 能 性 是 不 确定 的 ， 对 于 不 可 能 
事件 和 必然 事件 ， 在 试验 中 能 够 事先 被 确定 是 否 会 发 生 ， 我 们 称 之 为 确定 事件 ， 而 对 于 不 
确定 事件 (随机 事件 ) ， 其 发 生 或 不 发 生 的 可 能 性 则 称 之 为 概率 。 

在 概率 中 有 着 最 为 常见 的 两 大 概 型 : 

(1) 古典 概 型 。 古 典 概 型 讨论 的 对 象 局 限于 随机 试验 所 有 可 能 结果 为 有 限 个 等 可 能 的 
情形 ， 即 基本 空间 由 有 限 个 元 素 或 基本 事件 组 成 ， 其 个 数 记 为 W， 每 个 基本 事件 发 生 的 可 
能 性 是 相同 的 。 若 事件 4 包含 M 个 基本 事件 ， 则 定义 事件 4 发 生 的 概率 为 PLO= 蔚 ， 也 


就 是 事件 4 发 生 的 概率 等 于 事件 4 所 包含 的 基本 事件 个 数 除 以 基本 空间 的 基本 事件 的 总 个 
数 ， 这 是 P.S. 拉 普 拉 斯 的 古典 概 型 定义 ， 或 称 之 为 概率 的 古典 定义 。 历 史上 古典 概 型 是 由 研 
究 诸如 掷 明 子 一 类 赌博 游戏 中 的 问题 引起 的 。 计 算 古 典 概 型 ， 可 以 用 穷 举 法 列 出 所 有 基本 事 
件 ， 再 数 清 一 个 事件 所 含 的 基本 事件 个 数 ， 然 后 相 除 ， 借 助 组 合计 算 可 以 简化 计算 过 程 。 
(2) 几何 概 型 。 若 随机 试验 中 的 基本 事件 有 无 穷 多 个 ， 且 每 个 基本 事件 发 生 是 等 可 能 
的 ， 这 时 就 不 能 使 用 古典 概 型 ， 于 是 产生 了 几何 概 型 。 几 何 概 型 的 基本 思想 是 把 事件 与 几 
何 区 域 对 应 ， 利 用 几何 区 域 的 度量 来 计算 事件 发 生 的 概率 ， 布 丰 投 针 问题 是 应 用 几何 概 型 


可 


第 10 章 集合 与 概率 OF 


的 一 个 典型 例子 。 
设 某 一 事件 4 (也 是 中 的 某 一 区 域 ), S 包含 4, 它 的 量度 大 小 为 4(4)， 若 以 P(4) 表 
示 事 件 4 发 生 的 概率 ， 考 虑 到 “均匀 分 布 ” 性， 事件 4 发生 的 概率 取 为 2(4)=p(4)14(S)， 


这 样 计算 的 概率 称 为 几何 概 型 。 若 B 是 不 可 能 事件 ， 即 2 为 9 中 的 空 的 区 域 ， 其 量度 大 小 
为 0， 故 其 概率 P(g)=0。 

在 介绍 完 概 型 后 ， 我 们 介绍 一 下 概率 中 最 有 名 的 大 数 定律 。 

大 数 定律 (law of large numbers) ， 是 一 种 描述 当 试 验 次 数 很 大 时 所 呈现 的 概率 性 质 的 
定律 。 但 是 注意 到 ， 大 数 定律 并 不 是 经 验 规 律 ， 而 是 在 一 些 附加 条 件 上 经 严格 证 明了 的 定 
理 ， 它 是 一 种 自然 规律 ， 因 而 通常 不 叫 定理 而 是 大 数 “定律 ”。 而 我 们 说 的 大 数 定理 通常 
是 经 数学 家 证 明 并 以 数学 家 名 字 命 名 的 大 数 定理 ， 如 伯 努 利 大 数 定理 。 简 单 来 讲 ， 它 告诉 
我 们 在 随机 事件 的 大 量 重 复出 现 中 ， 往 往 呈 现 几乎 必然 的 规律 。 在 试验 不 变 的 条 件 下 ， 重 
复试 验 多 次 ， 随 机 事件 的 概率 近似 于 它 出 现 的 频率 。 

我 们 可 以 通过 Python 编程 实验 来 证 明 大 数 定律 ， 如 程序 10.2 所 示 。 

旦 序 10.2 ”大 数 定律 : 
import numpy as np 


import matplotlib as mpl 
mport matplotlib.pyplot as plt 


mpl.rcParams['font.sans-serif ]=[u'simHe!i'] 
mpl.rcParams['axes.unicode_minus']=False 

# 定义 数据 量 大 小 

numberSize = 200 

9: ”# 生成 服从 正 态 分 布 的 随机 数据 ， 其 均值 为 0 

10: randData = np.random.normal(scale=100, size=numberSize) 
11: # 保存 随机 每 增加 一 个 数据 后 算出 来 的 均值 

12: randData average=[] 

13: randData sum=0 

14: for index inrange(len(randData)): 

15: randData average.append((randData[index] + randData_sum) / (index + 1.0)) 
16: # 定义 作 图 的 x 值 和 y 值 

17: x=np.arange(0,numberSize,l) 

18: y=randData average 

19: # 作 图 设置 

20: plttitle( 大 数 定律 ) 


Oo A 
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21: pltxlabel( 数 据 量 ) 

22: pltylabel( 平 均值 ? 

23: # 画图 并 将 图 像 进行 展示 

24: plt.plot(x,y) 

25: plt.plot([0,numberSize], [0,0], 7) 
26: plt.showO 


输出 ， 如 图 10.3 所 示 : 
大 数 定律 


平均 值 


0 25 50 75 100 125 150 175 200 
数据 量 


图 10.3 大 数 定律 

分 析 : 

程序 的 第 5 行 指定 默认 字体 ， 第 6 行 则 是 防止 由 于 在 第 5 行 更 改 了 字体 会 导致 不 能 将 
负 号 “-” 显 示 出 来 ，axes 相关 设置 里 的 设置 是 axes-unicode minus:True 代表 默认 情况 采用 
的 是 unicode 的 minus; 所 以 在 我 们 修改 默认 字体 后 需要 将 True 改 为 False。 第 14 行 代码 通 
过 循环 计算 每 增加 一 个 数据 后 的 均值 。 

由 图 10.3 即 可 进一步 验证 我 们 的 结论 ， 随 着 数据 量 的 增加 ， 均 值 越 来 越 接 近 实 际 均值 
0。 即 当 我 们 的 样本 数据 量 足 够 大 的 时 候 ， 就 可 以 用 样本 的 平均 值 来 估计 总 体 平均 值 。 

在 日 常生 活 中 概率 问题 也 十 分 常见 ， 现 举例 如 下 。 

例 1: 根据 生物 学 家 的 研究 ， 人 体 的 许多 特征 都 是 由 基因 控制 的 ， 有 的 人 双眼 皮 ， 有 
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的 人 单眼 皮 ， 这 是 由 一 对 人 体 基因 控制 的 ， 控 制 单眼 皮 的 基因 了 是 隐 性 的 ， 控 制 双 眼皮 的 
基因 FF 是 显 性 的 ， 这 样 控制 眼皮 的 一 对 基因 可 能 是 FF 、Ff 或 了 六。 有 基因 凡 的 人 是 单眼 
皮 的 ， 有 基因 FF 或 FY 的 人 是 双眼 皮 的 。 在 遗传 时 ， 父 母 分 别 将 他 们 所 携带 的 一 对 基因 中 
的 一 个 基因 遗传 给 子女 ， 且 可 能 性 大 小 相等 。 如 果 父 母 都 是 双眼 皮 而 他 们 的 基因 都 是 Fr ， 
那么 他 们 的 子女 双眼 皮 可 能 性 大 还 是 单眼 皮 可 能 性 大 呢 ? 在 这 种 情况 下 ， 我 们 只 需 将 子女 
可 能 的 基因 组 合 都 列举 出 来 ， 求 取 各 特征 的 概率 即 可 ， 具 体 程序 如 程序 10.3 所 示 。 

程序 10.3 ”基因 组 合 : 


1: import itertools 

2: ”parents_gene = ["F" "f","F","f"] 
3: A=0 

4: B=0 

5: count=0 

6: forretin itertools.combinations(parents gene, 2): 
i if"F" inret: 

8: B+=1 

9: else: 

10: A+=1 

二 count += 1 

2 prob_A = round(A /count 2) 
13: prob_B = round(B / count, 2) 


14: print("the probability of single eyelid is {0}".format(prob_A)) 

15: print("the probability of double-fold eyelid is {0}".format(prob_B)) 

输出 : 

the probability of single eyelid is 0.17 

the probability of double-fold eyelid is 0.83 

分 析 : 

如 程序 的 第 3、4 行 所 示 ，, 我 们 首先 记 子 女 单眼 皮 的 事件 为 A， 双眼 皮 的 事件 为 B， 并 
调用 itertools 模块 的 combinations 方法 将 子女 可 能 基因 组 合 都 列举 出 来 ， 依 次 计数 ， 由 输 
出 结果 可 知 ， 子 女 的 双眼 皮 的 可 能 性 较 大 。 

提示 : 

这 种 通过 列举 法 和 图 表 法 列举 某 事件 ， 从 而 求 取 该 事件 概率 的 方法 ， 我 们 称 之 为 古典 
概 型 。 
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例 2: 在 如 图 10.4 所 示 的 边 长 为 2 的 正方 形 中 随机 地 撒 一 大 把 豆子 ， 计 算 落 在 正方 形 
里 的 圆 中 的 豆子 数 与 落 在 正方 形 中 豆子 数 之 比 ， 并 以 此 估计 圆周 率 x 。 
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图 10.4 豆子 散落 分 布 图 


如 果 我 们 把 “在 正方 形 中 随机 撤 豆 子 ” 看 成 试验 ， 把 “豆子 落 在 圆 中 ”看 成 随机 事件 
4， 则 落 在 圆 中 豆子 数 与 落 在 正方 形 中 豆子 数 的 比值 就 是 事件 4 发 生 的 可 能 性 大 小 ， 如 果 撤 
的 豆子 数 多 的 话 ， 这 时 这 个 数据 就 可 近似 地 看 作 事件 4 的 概率 ， 有 具体 程序 如 程序 10.4 所 示 。 
程序 10.4 近似 计算 圆周 率 : 


import random 

import math 

n=0 

m= 100000 

for iin range(m): 
x=random.random() * 2 
y=random.random() * 2 
if math.pow(x - 1, 2) + math.pow(y - 1, 2) <= 1: 

9: n+=1 

10: pi prob=n/m*4 

11: print("the piis:{0}".format(pi_prob)) 


输出 : 


the piis:3.13144 


oT 
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分 析 : 

如 程序 第 4~9 行 所 示 ， 我 们 在 正方 形 中 撒 了 m 颗 豆 子 ， 其 中 有 n 颗 豆子 落 在 圆 中 ， 
根据 面积 比值 xr?/4r? =n/m， 贺 周 率 z 的 近似 值 等 于 4n/m 。 

提示 : 

这 种 概率 的 大 小 与 面积 的 大 小 有 关 ， 即 事件 发 生 的 概率 等 于 满足 组 成 图 形 的 面积 ， 这 
种 概率 模型 我 们 可 以 称 之 为 几何 概 型 。 


10.3 ” 贝 叶 斯 分 类 


贝 叶 斯 分 类 算法 在 众多 分 类 算法 中 占有 重要 地 位 ， 也 属于 统计 学 分 类 的 范畴 ， 是 一 种 
非 规则 的 分 类 方法 ， 贝 叶 斯 分 类 技术 通过 对 已 分 类 的 样本 子 集 进行 训练 ， 学 习 归 纳 出 分 类 
函数 〈 对 离散 变量 的 预测 称 作 分 类 ， 对 连续 变量 的 分 类 称 作 回归 ) ， 利 用 训练 得 到 的 分 类 
器 实现 对 未 分 类 数据 的 分 类 。 通 过 对 比分 析 不 同 的 分 类 算法 ， 发 现 朴素 贝 叶 斯 分 类 算法 
(CNaive Bayes) ， 一 种 简单 的 贝 叶 斯 分 类 算法 ， 其 应 用 效果 比 神经 网 络 分 类 算法 和 判定 树 
分 类 算法 还 要 好 ， 特 别 是 当 分 类 数据 量 非常 大 时 ， 贝 叶 斯 分 类 方法 相 较 其 他 分 类 算法 具有 
高 准确 率 。 

朴素 贝 叶 斯 分 类 是 贝 叶 斯 分 类 算法 的 一 种 ， 叫 它 朴 素 贝 叶 斯 分 类 是 因为 这 种 方法 的 思 
想 真 的 很 朴素 ， 朴 素 贝 叶 斯 的 思想 基础 是 这 样 的 ; 对 于 给 出 的 待 分 类 项 ， 求 解 在 此 项 出 现 
的 条 件 下 各 个 类 别 出 现 的 概率 ， 哪 个 最 大 ， 就 认为 此 待 分 类 项 属于 哪个 类 别 。 通 俗 来 说 ， 
就 好 比 你 在 街 上 看 到 一 个 黑人 ， 如 果 让 你 猜 他 是 从 哪里 来 的 ， 你 十 有 八 九 会 猜 非洲 。 为 什 
么 呢 ? 因为 黑人 中 非洲 人 的 比率 最 高 ， 当 然 他 也 可 能 是 美洲 人 或 亚洲 人 ， 但 在 没有 其 他 可 
用 信息 下 ， 我 们 会 选择 条 件 概率 最 大 的 类 别 ， 这 就 是 朴素 贝 叶 斯 的 思想 基础 。 

朴素 贝 叶 斯 分 类 的 正式 定义 如 下 : 

(1) 设 x={@,ay,….a} 为 一 个 待 分 类 项 ， 而 每 个 a 为 x 的 一 个 特征 属性 。 

(2) 有 类 别 集合 C= {yy,,…,y,}。 

(3) 计算 P(y 1x),P(y1x),…,P(y, |x) 。 

(4) 如 果 P(yp1x)=max{P(pi 1x),P(y,1x),…,P(y, |x)}， 则 xey,。 

贝 叶 斯 分 类 的 流程 图 如 图 10.5 所 示 。 
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获取 训练 样本 | 


豆 遍 


mm 


盏 人 这 口 


wd 
漆 号 


确定 特征 属性 


图 10.5 贝 叶 斯 分 类 流程 


下 面 我 们 利用 贝 叶 斯 分 类 来 过 滤 垃 圾 邮件 。 

(1) 我 们 用 w 表示 邮件 (E-mail) 的 特征 向 量 ( 即 w 是 一 个 向 量 ) ， 具 体 的 一 个 特征 
表示 某 个 单词 是 否 出 现 过 ，1 表示 出 现 ，0 表示 没有 出 现 ， 此 处 单词 的 选取 范围 就 是 所 有 邮 
件 出 现 过 的 单词 。 

假设 我 们 的 邮件 如 表 10.1 所 示 。 

表 10.1 邮件 短 句 

样本 E-mail 内 容 标签 
email 1 下 垃圾 邮件 
email 2 垃圾 邮件 
email 4 垃圾 邮件 


所 有 样本 中 出 现 过 的 单词 的 集合 : [a,are,dog,go,him,i,love,pig,school,to,will,you]， 单 词 
会 转化 为 小 写 ， 其 中 如 ai 比较 简短 的 单词 (这 个 单词 长 度 自己 设置 还 有 比如 语气 助词 单 
词 , 它们 对 邮件 分 类 没有 什么 作用 , 可 以 考虑 过 滤 掉 ) 过 滤 后 如 下 : [are,dog,go,him,love,pig, 
school,to,will,you]， 对 应 于 上 面 各 样本 的 w 如 表 10.2 所 示 。 


表 10.2 关键 字 转 换 向 量 


E-mail w 次 


email 1 [0.0.0.1.1.0.0.0.0.0] 0 


email 2 [1.0.0.0.0.1.0.0.0.1] 1 
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续 表 
E-mail € 
email 3 [0,0,1,0,0,0,1,1,1,0] 0 
email 4 [0,1,0,0,0,0,0,0,0,1] 1 


(2) c 表示 垃圾 邮件 的 类 别 ， 此 处 分 为 垃圾 邮件 和 非 垃圾 邮件 两 个 类 别 ，1 表示 垃圾 
邮件 ，0 表示 非 垃 圾 邮件 。 
(3) 计算 P(c)， 我 们 可 以 通过 统计 样本 的 标签 ， 就 可 以 计算 出 垃圾 邮件 、 非 垃圾 邮件 
出 现 的 概率 ， 如 表 10.3 所 示 。 
表 10.3 ”垃圾 邮件 与 非 垃圾 邮件 出 现 概率 


标签 概率 P(c) 
0 0.5 
1 0.5 


(4) 计算 Pwlc)， 首 先 将 邮件 通过 标签 分 开 ， 即 垃圾 邮件 部 分 和 非 垃 圾 邮件 部 分 ， 然 
后 统计 单词 在 各 个 类 别 中 出 现 的 概率 ， 即 P(wlc)， 如 表 10.4 所 示 。 
表 10.4 单词 出 现 频率 
email 1 [0.0.0.1.1.0.0.0.0.0] 
email 3 [0,0,1,0,0,0,1,1,1,0] 4 
非 垃圾 邮件 
求 和 [0,0,1,1,1,0,1,1,1,0] 6 
Pwlc) [0,0,1/6,1/6,1/6,0,1/6,1/6,1/6,0] 
email 2 [1,0,0,0,0,0,0,0,0,1] 3 
email 4 [0.1.0.0.0.0.0.0.0.1] 
垃圾 邮件 
求 和 [1,1,0,0,0,1,0,0,0,2] 5 
P(wlc) [1/5,1/5,0,0,0,1/5,0,0,0,2/5] 
通过 表 10.4 所 得 的 数据 , 我 们 开始 进行 预测 分 类 , 对 于 一 个 具体 样本 , 其 特征 假如 为 w， 
通过 P(w) 和 P(wlc) 来 确定 属于 哪 一 个 。 


假设 测试 邮件 为 : pig dog,fuck dog， 比 较 得 出 表 10.5。 结 果 证 明 这 是 封 垃圾 邮件 。 
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表 10.5 垃圾 邮件 


P(wilc?) 


[0,0,1/6.1/6,1/6.0,1/6,1/6.1/6.0] [1/5,1/5,0.0,0,1/5,0,0,0,2/5] 
Plciw) 1*0° Pco)=0 1°* 1/5° P(ei)=1/10 


10.4 案例 : 线 上 课程 分 类 


在 人 工 智能 领域 中 ， 概 率 的 应 用 是 非常 常见 的 ， 如 上 面 介绍 的 垃圾 邮件 过 滤 中 的 贝 叶 
斯 分 类 算法 、 网 店 中 的 协同 推荐 算法 等 ， 下 面 我 们 将 以 课程 标题 分 类 为 例 ， 有 具体 介绍 基于 
条 件 概 率 的 朴素 贝 叶 斯 算法 : 网 站 管理 员 最 近 在 整理 某 教学 网 站 上 的 英语 材料 ， 为 提高 工 
作 效率 ， 需 要 计算 机 帮 他 自动 归 类 材料 ， 于 是 他 统计 了 该 网 站 近期 发 布 的 课程 标题 ， 如 表 
10.6 所 示 。 

表 10.6 ”课程 标题 表 
序号 课程 标题 类 别 

Daily English Learning 1 

Welcome! - VOA Learning English 1 
World of Math Online 0 
0 


Free online math lessons 


ll wlb|- 


Listen and Learm English 


1 
The physical learning style 0 
Leaming by Choice in Secondary Physical Education 0 


mJ|a 


Leam English in 30 Minutes | 
观察 表 10.6 可 以 发 现 ， 在 每 个 标题 中 都 会 有 一 两 个 关键 字 决 定 着 标题 类 别 ， 于 是 他 通 


过 统计 每 个 单词 在 特定 类 别 下 的 词 频 ， 尝 试 发 现 词 频 与 类 别 的 关联 关系 ， 其 词 频 统计 图 如 
10.6 所 示 。 
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ooL 国 o 0 0 0 , 


Math Physical English Listen Learning ... 
word frequency 


图 10.6 词 频 统计 图 

由 图 10.6 可 知 ， 在 英语 材料 的 标题 中 ， 关 键 字 Listen、English 出 现 频 率 较 高 ， 而 在 其 
他 类 别 课程 的 标题 中 则 相对 较 低 ， 因 此 只 要 通过 比较 单词 出 现在 类 别 中 的 词 频 大 小 ， 即 可 
对 待 分 类 标题 进行 归 类 。 

(1) 贝 叶 斯 公式 。 在 上 述 问题 中 ， 我 们 得 到 了 每 个 单词 在 特定 类 别 下 的 词 频 ， 记 单词 
向 量 (x,x,,…,%) 为 特征 变量 和 ， 其 词 频 可 表示 为 PCE1c) ， 根 据 贝 叶 斯 公式 ， 我 们 可 以 
计算 在 特征 变量 卫 出 现 的 条 件 下 ， 课 程 标题 属于 类 别 cj 的 概率 P(c) | 瑟 ) ， 如 公式 〈10-1) 
所 示 。 


P(X|c))P(c)) 
P(X) 
其 中 ，P(c) 表示 标题 类 别 的 概率 ，P(X) 表 示 特 征 变 量 对 ， 即 单词 在 所 有 标题 中 出 现 的 


Plc) |X)= (10-1) 


(2) 朴素 贝 叶 斯 公式 。 现 在 我 们 假设 单词 间 是 互相 独立 的 ， 且 对 于 每 个 PCE1c)) 的 计 
算 P(X) 都 一 样 ， 因 此 课题 类 别 c 的 条 件 概率 可 简写 为 : 


Pc IO=TTPc |cj)PC)) (10-2) 
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在 理解 了 上 述 概念 后 ， 我 们 打开 文本 编辑 器 ， 创 建 名 为 naive_bayes.py 文件 ， 并 在 
naive_bayes.py 文件 中 创建 Naive_ bayes 类 ， 如 程序 10.5 所 示 。 
程序 10.5 创建 Naive_bayes 类 : 


| class Naive_bayes(object): 

2 def init (self, pO_vector, pl_vector, p_absolute, vocab_set): 

3 ww 

4: 输入 : 朴素 贝 叶 斯 实例 self，p0_vector 表示 类 别 c 的 单词 词 频 PCE|co) ， 
于 pl_vector 表示 类 别 c 的 单词 词 频 P(X|c)，p_absolute 表示 类 别 a 的 概率 
6: P(a) ， 单 词 字典 vocab_set 

凡 输出 : 无 

8: 描述 : 朴素 贝 叶 斯 构造 函数 

9: PN 

10: selfp0_vector = pO_vector 

TE self.pl_vector = pl_vector 

I self.p_absolute = p_absolute 

13: self.vocab_set = vocab _set 

14: super(Naive_bayes, self)._ init 0 


在 Naive_bayes 类 计算 条 件 概率 P(x; |c)) 前 , 需要 做 一 些 准 备 工作 ,首先 我 们 基于 训练 
样本 构建 单词 字典 , 然后 根据 该 字典 , 为 每 个 样本 生成 对 应 的 文本 向 量 , 其 代码 如 程序 10.6 
所 示 。 

旦 序 10.6 ”构建 文本 向 量 : 


1: defcreate vocab list(self, dataset): 

2 mm 

3 输入 : 朴素 贝 叶 斯 实例 self， 训 练 数据 集 dataset 
4: 输出 : 无 

5: 描述 : 根据 测试 样本 构建 单词 字典 

局 nm 

y: vocab set = set([]) 

8 for document in dataset: 

9: vocab_set = vocab_set | set(document) 

10: self.vocab_set = list(vocab_set) 

ls 

12: def wordset2vector(self, inputset): 

13: rm 

14: 输入 : 朴素 贝 叶 斯 实例 self， 单 条 文本 inputset 


Ss 输出 : 文本 向 量 return_vec 
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16: 描述 : 将 每 条 文本 转换 为 数字 向 量 ， 建 立 与 字典 同等 大 小 的 文本 向 量 ， 若 语句 
17: 中 的 单词 在 字典 表 中 出 现 则 标记 为 1， 否 则 为 0 

18: ey 

19: return_vec = [0] * len(self.vocab_set) 

20: for word in inputset: 

ZI if word in self.vocab_set: 

2 return_ vec[self.vocab set.index(word)] += 1 

23: Tetum return_vec 


我 们 以 课程 标题 为 例 ， 随 机 选择 一 个 新 标题 tile = Listen English, 构建 特征 变量 
蕊 =(Listen,English) ， 根 据 表 10.6 的 信息 可 统计 出 单词 在 特定 类 别 下 的 词 数 ， 如 表 10.7 
所 示 。 


表 10.7 单词 词 数 统计 表 


Math 
Physical 
English 

Listen 


Learning 


由 此 我 们 可 以 计算 出 测试 样本 中 每 个 单词 的 条 件 概率 P(x |c;)， 如 P(x=Math|c。)= 
2/119=0.11, P(x=Math|c)=0/19=0。 接 着 计算 类 别 c) 的 概率 ,分 别 为 P(c6)=4/8=0.5， 
P(c)=4/18=0.5， 最 后 将 上 述 概率 依次 代入 公式 〈10-2) ， 计 算 课题 类 别 c) 的 条 件 概 率 
Plc, |X): 

Plc, |X)= P(Listen |c,).» P(English |c,). Pe) 疾 x 0.5=0 
P(c |X)= P(Listen|c).» P(English |c)。P(c =- 志 x x0.5=0.009 


其 中 , 我 们 发 现 一 个 问题 , Listen 和 Englsih 并 未 出 现在 任何 非 英 语 课程 的 标题 样本 中 ， 
导致 与 它 相 关 的 课题 类 别 c 的 条 件 概率 P(c; | 马 ) 一 直 等 于 0， 得 不 出 任何 信息 。 为 避免 此 


问题 ， 我 们 需要 使 用 拉 普 拉 斯 平滑 方法 : 首先 为 特征 变量 卫 每 个 单词 计数 加 1， 使 它 不 会 
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为 零 。 然 后 将 外 加 的 词 数 加 到 除数 ， 这 样 计 算 的 概率 将 永远 不 会 大 于 1。 现 在 我 们 再 次 计 
算 P(cj | 了 ) : 


1 
Pl(c, | X)= P(Listen|c,)。 P(English | cu)。P(c)= 一 一 一 x x0.5=0.001 
(co | X)=P( |c0)» P(English |cu)。P(co) ee 
& 1+1 4+1 
PCc |X)= P(Listen|c)» P(English|¢). P(c)= x x0.5=0.017 
15+2 15+2 


因为 Plc, | 已) < P(c | 了 ) ,最 后 我 们 可 以 把 标题 title = Listen English 划分 到 英语 教学 类 
其 中 ， 完 整 朴素 贝 叶 斯 分 类 器 的 训练 方法 如 程序 10.7 所 示 。 
程序 10.7 构建 朴素 贝 叶 斯 分 类 器 : 


可 


下 def compnute_condition_ probability(self words_vec, labels): 

2 

3 输入 : 朴素 贝 叶 斯 实例 self， 训 练 文本 向 量 集合 words_vec， 文 本 标签 labels 
4: 输出 : 无 

S: 描述 : 根据 文本 向 量 集合 计算 类 别 c 的 单词 词 频 P(X|c,) 和 概率 P(c) 

6: ee. 

江 num train_docs = len(words_vec) “# 训 练 样本 数 

际 num_words = len(words_vec[0]) ## 训 练 样本 中 的 单词 总 数 

9: p0_num = 二 np.ones(num words) ”# 拉 普 拉 斯 平滑 


10: pl_num = np.ones(num words) 

Ms foriin range(num train_docs): 

12: if labels[i] 一 1: 

要 > pl_num += words vec[i] 

14: else: 

1 pO_num += words_vec [i] 

16: self.p0_vector = np.log(p0_num / sum(p0_num)) # 调 用 log 函数 ， 防 止 计算 结 果 下 洲 
Ws self.pl_vector = np.log(pl_num / sum(pl_num)) 

18: selfp_absoluate = sum(labels) / float(num train_docs) 

19: 

20: def fit(self, dataset, labels): 

区 ee 

2 输入 : 朴素 贝 叶 斯 实例 self， 训 练 样本 集合 dataset， 文 本 标签 labels 
23: 输出 : 无 

24: 描述 : 根据 训练 样本 集训 练 朴 素 贝 叶 斯 分 类 器 

25 

26: self.create_vocab_list(dataset) # 构 建 样本 单词 字典 

27: words_vec=[] 


28: for inputset in dataset: 
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29: words_vec.append(self.wordset2vec(inputset))# 构 建文 本 问 量 
30: selfcompute_condition probability(words_vec, labels) # 计 算 条 件 概 率 P(X|c,) 和 类 别 a 的 概 
率 P(a) 


在 训练 完 分 类 器 模型 后 ， 我 们 再 使 用 一 个 简单 的 概率 比较 即 可 完成 对 象 的 自动 归 类 ， 
其 代码 如 程序 10.8 所 示 。 
程序 10.8 ”构建 朴素 贝 叶 斯 分 类 器 : 


1 def predict(self word_vec): 

2 mm 

3 输入 : 朴素 贝 叶 斯 实例 self， 测 试 文本 向 量 word_vec 

4: 输出 : word_vec 所 属 类 别 

5: 描述 : 利用 朴素 贝 叶 斯 分 类 器 预测 文本 类 别 

a mm 

p0 = sum(word_vec* self.pOV) + np.log(1.0 - self.p_absoluate) 
8 pl = sum(word_vec* self.plV) + np.log(self. p_absoluate) 

9: return 1 if pl > pO else 0 


至 此 ， 让 我 们 回顾 上 述 算法 步 又， 可 以 整理 出 一 个 完整 的 朴素 贝 叶 斯 算法 流程 ， 如 
图 10.7 所 示 。 
开始 


输入 训练 集 数 据 


计算 单词 词 频 P(X lc) 


Y 
计算 类 别 c 的 概率 P(c) 


于 


计算 特征 向 量 X 属 于 类 别 < 的 条 件 概率 PUcl) 


图 10.7 朴素 贝 叶 斯 算法 流程 图 
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由 图 10.7 可 知 ， 朴 素 贝 叶 斯 模型 的 构建 是 一 个 简单 的 线性 流程 ， 我 们 只 需 依 次 计算 训 
练 样本 的 单词 词 频 P(E1c) ， 样 本 类 别 概率 P(c)) ， 进 而 求解 特征 向 量 蕊 属于 类 别 cj 的 条 
件 概率 P(c; | 工 ) ， 即 可 结束 算法 的 训练 过 程 。 

到 现在 为 止 ， 我 们 已 经 大 致 完成 了 对 朴素 贝 叶 斯 算法 的 学 习 ， 现 在 只 需要 通过 一 个 数 
据 加 载 和 入 口 函数 就 可 得 到 一 个 可 运行 的 代码 实例 ， 其 代码 如 程序 10.9 所 示 。 

程序 10.9 数据 加 载 函 数 和 入 口 函数 : 


1: defload dataset(filename, delimiter=" "): 

2 

3 输入 : 数据 文件 路 径 ， 分 隔 符 

4: 输出 : 数据 集 

5: 描述 : 读 取 数 据 文件 生成 np.nArray 类 型 的 数据 集 

6: 2 

了 dataset = [] 

8: labels=[] 

9: with open(filename, TD) as 印 : # 数 据 文件 内 容 格式 "Daily English Learning 1" 
10: while True: 

li lines = fh.readline().stripO| #lines = "Daily English Leaming 1" 
1 if not lines: 

3 break 

14: feature = lines.split(delimiter)# feature = ['daily', "english', 'learning’, '1'] 
5: key = int(feature [-1]) 

16: values = [Vv.lower() for v in feature [0:-1]] 

17: labels.append(key) 

18: dataset.append(values) 

19: return dataset, label 

20: 

21: if_name ===" main_": 

22: filename = "bayes.data" 

23: dataset, labels = load_dataset(filename) 

24: naive_bayes = Naive_bayes() 

2 Daive_bayes.fit(dataset, labels) 

26: testset = [learming', 'english'] 

27: test_vec = naive_bayes.wordset2vec(testset) 

28: estimate = naive_bayes.predict(test_vec) 


29: print([{0},{1}] estimate is: {2} format (testset[0], testset[1], estimate)) 
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10.5 总 结 


本 章 我 们 分 别 回顾 与 学 习 了 集合 和 概率 的 基本 概念 及 其 在 实际 中 的 应 用 ， 如 集合 的 并 
集 、 交 集 ， 概 率 的 古典 概 型 与 几何 概 型 等 ， 并 通过 线 上 课程 分 类 的 案例 理解 了 基于 概率 的 
朴素 贝 叶 斯 分 类 算法 工作 流程 与 详细 步骤 。 


10.6 练 习 


(1) 定义 一 个 函数 CreateNum()， 返 回 一 个 列表 ， 列 表 中 包括 100 个 数字 ， 将 小 于 
100 的 ， 小 于 500 大 于 100 的 ， 大 于 500 的 分 别 存 入 三 个 不 同 的 集合 当中 。 

(2) 定义 一 个 函数 diceoum，point，counb) 模 拟 掷 贷 子 ， 其 中 num 表示 抛掷 的 货 子 
数 ，point 表示 抛掷 的 点 数 ，count 表示 抛掷 点 数 为 point 的 次 数 ， 要 求 在 函数 中 以 重复 试 
验 的 方式 求 出 抛掷 num 个 山子 ， 至 少 有 count 个 点 数 为 point 的 概率 。 

(3) 使 用 贝 叶 斯 分 类 器 练习 垃圾 邮件 过 滤 ， 两 份 邮件 信息 分 别 为 I LOVE YOU 与 
YOU ARE A PIG 。 


本 章 将 通过 回顾 统计 学 中 的 基本 概念 及 现实 意义 ， 并 根据 实际 案例 介绍 基于 Python 的 
统计 回归 模型 ， 通 过 本 章 的 学 习 ， 需 要 掌握 : 
口 “加 深 对 统计 学 相关 概念 的 理解 与 应 用 。 
理解 假设 检验 的 基本 概念 与 计算 步骤 。 
理解 方差 分 析 的 概念 与 计算 过 程 。 
理解 统计 回归 中 线性 回归 模型 。 


DODO 


11.1 统计 学 的 基本 概念 


统计 学 是 研究 随机 现象 中 确定 的 统计 规律 的 学 科 ， 主 要 体现 在 收集 、 整 理 、 分 析 与 解 
释 统计 数据 ， 并 对 其 所 反映 的 问题 的 性 质 、 程 度 和 原因 做 出 一 定 结论 。 其 计量 资料 的 统计 
描述 主要 如 下 。 

(1) 均值 : 标志 资料 总 量 与 单位 总 数 的 比值 ， 计 算 简单 ， 但 易 受 极 值 影响 ， 如 程序 
11.1 所 示 。 

程序 11.1 计算 均值 : 

1: List=[1,2,3,4,5,6,7,8,9] 

2: print(sum(List)/len(List)) 

输出 : 

5.0 

分 析 : 

sum() 为 求 和 函数 ，len0 可 以 计算 列表 长 度 。 

(2) 中 位 数 : 由 小 到 大 排列 居中 间 位 置 的 标志 值 ， 不 易 受 极 值 影响 ， 稳 定性 高 ， 如 程 
序 11.2 所 示 。 
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程序 11.2 计算 中 位 数 : 


1 def get median(data): 

2 data = sorted(data) 

E) size = len(data) 

4: ifsize %2 一 0: # 浏 断 列 表 长 度 为 偶数 
局 median = (data[size//2]+data[size//2-1])/2 
6 data[0] = median 

这 ifsize %2 一 1:  # 潮 断 列表 长 度 为 奇数 
8: median = data[(size-1)//2] 

9: data[0] = median 

10: return data[0] 

11: print(get_ median([1,2,3,4,5])) 


输出 : 
3 


分 析 : 

程序 的 第 2、3 行 对 数据 列表 进行 排序 ， 并 获取 排序 后 的 列表 长 度 ; 第 4 和 7 行使 用 让 
条 件 语句 判断 数据 列表 的 长 度 的 奇偶 性 后 ， 进 行 中 位 数位 置 索引 并 返回 中 位 数 。 

(3) 众 数 : 标志 资料 中 出 现 次 数 最 多 的 数值 ， 不 易 受 极 值 影响 ， 但 可 靠 性 较 差 ， 如 程 
序 11.3 所 示 。 

旺 序 11.3 ”计算 众 数 : 


1: def get mode(arr): 

9 入 mode =[] 

3 ar_appear = dict((a, arr.count(a)) for a in arr); 
4: if max(arr_appear.values() == 1: 

Se return 

6: else: 

7 fork vin arr_appear.items(): 

8: ifv== max(arr appear.values()): 
9: mode.append(k) 

10: return mode 

MEA SS 

12: print(get mode(ArD) 

输出 : 


[5] 


“184 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 ) 


(4) 极 差 : 标志 资料 中 最 大 值 与 最 小 值 之 差 ， 计 算 方便 ， 但 不 能 反映 数据 分 布 状况 ， 
如 程序 11.4 所 示 。 
程序 11.4 计算 极 差 : 


1: def get range(arr): 

多 return max(arr)-min(arr) 
3 

4: List = [1, 2, 3, 4, 5, 6,7] 

5: print(get range(List)) 

输出 

6 


(5) 方差 : 标志 资料 中 各 标志 值 与 均值 差 值 平方 的 均值 ， 能 够 反映 数据 分 布 状况 ， 但 
易 受 计量 单位 与 均值 影响 ， 如 程序 11.5 所 示 。 
程序 11.5 ”计算 方差 : 


1: ”def variance2(]):# 平 方 -期 望 的 平方 的 期 望 
2 ex=float(sum(D))JMlen(D) 

3: s=0 

4: foriinl: 

品 从 st+=(i-ex)**2 

6: return float(s)/len(]) 

7: List=[1,2,3,4,5,6,7] 

8: print(variance2(List)) 

输出 : 

4.0 


(6) 标准 差 : 即 方差 的 平方 根 ， 与 方差 相似 ， 如 程序 11.6 所 示 。 
程序 11.6 计算 标准 差 : 


1: import math 

2: def variance3(]): # 平 方 - 期 望 的 平方 的 期 望 
3 ex=float(sum(D))/len(0) 

4: s=0 

3 foriin 1 

6: St+=(1-ex)**2 

return math.sqrt(float(s)/len(])) 
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| 
9: print(variance3(List)) 


输出 : 


2.0 
11.2 假设 检验 


统计 学 方法 包括 统计 描述 和 统计 推断 两 种 方法 ， 其 中 ， 统 计 推断 又 包括 参数 估计 和 假 
参数 估计 用 样本 统计 量 去 估计 总 体 的 参数 的 真 值 , 假设 检验 则 是 根据 样本 统计 量 来 检验 对 
总 体 参数 的 先 验 假设 是 否 成 立 ， 其 基本 思想 是 : 先 提出 假设 豆 ， 然 后 根据 资料 的 特点 《如 检 
验 统 计量 、 抽 样 分 布 等 ) ， 计 算 相 应 的 统计 量 J ， 接 着 基于 选取 的 显著 性 水 平 a 确定 原 假设 的 
接受 域 与 拒绝 域 的 临界 值 Zrmw ， 最 后 通过 比较 统计 量 2 与 临界 值 Zro 来 判断 假设 是 否 成 立 。 
资料 总 体 均值 检验 的 统计 量 计算 的 一 般 流程 ， 如 图 11.1 所 示 。 


Z 检 验 
fe 
ZX 

S/Nn 


图 11.1 总 体 均值 检验 的 统计 量 计算 流程 


=” 186° 


人 工 智 能 基础 教程 : Python 篇 〈 青 少 版 ) 


我 们 将 通过 一 个 简单 的 实例 来 剖析 其 计算 过 程 : 设 某 皮鞋 厂 经 理 估计 生产 的 皮鞋 平均 
尺寸 为 35 码 , 他 从 2017 年 皮鞋 的 生产 记录 中 随机 抽取 40 双 , 统计 得 到 它们 的 尺寸 数据 如 


表 11.1 


所 示 ， 请 问 根据 该 调查 结果 ， 经 理 的 估计 是 否 准确 ? 
表 11.1 皮鞋 尺寸 抽样 数据 


29 37 27 35 
22 39 27 22 
30 33 
38 lw | 1 1s | 29 


对 应 于 图 11.1 的 计算 流程 ， 首 先 我 们 需要 计算 总 体 均值 检验 统计 量 ， 再 通过 比较 该 统 


计量 与 


临界 值 ， 做 出 是 否 推翻 原 假设 的 决定 ， 计 算 过 程 具 体 如 程序 11.7 所 示 。 


呈 序 11.7 ”皮鞋 尺寸 总 体 均值 检验 : 


import numpy as np 
def hypothesis_test(sample_set, var, z_list, t_list): 
区 二 33 
test_type = "z_test" 
mean = np.mean(sample_set) 
num sample = len(sample_set) 
if var is None: 
s= np.var(sample set) 
if num sample > 30: 
Z=(mean-u/(s/np.sqrt(num sample)) 
else: 
test_type = "t_test" 
t= (mean-u)/(s/np.sqrt(num sample)) 
else: 
Z=(mean-u)/(var/np.sqrt(num sample)) 
a=0.05 
if test_type 一 "z_test": 
z thred=z list.get(a) 
h0=Z<z thred[0] or Z >z thred[1] 
else: 
t thred = t list.get(a) 
h0O=t<t thred[0] or t > t thred[1] 
print("The hypothesis 0 is:", h0) 
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输出 : 
The hypothesis 0 is: False 


分 析 : 

首先 我 们 设 皮鞋 的 平均 尺寸 已 :AU=35 , 即 总 体 皮鞋 的 平均 尺寸 与 经 理 估计 的 35 码 没 
有 差异 ， 如 程序 的 第 3 行 所 示 。 对 照 图 11.1， 由 于 总 体 方差 var 未 知 ， 且 样本 数 大 于 30 为 
大 样本 ， 因 此 我 们 可 以 用 样本 标准 差 s 代替 总 体 标 准 差 var， 计 算得 出 统计 量 Z =-3.455 。 
设 显著 性 水 平 w = 0.05 ， 查 表 在 z_list 可 得 临界 值 z_thred=(-1.96,1.96)， 最 后 比较 统计 量 乙 
与 临界 值 z thred， 因 为 Z=-3.455 < -1.96 ， 所 以 可 以 拒绝 原 假设 肪 , ， 即 我 们 认为 经 理 的 
估计 不 准确 。 

假设 检验 在 质量 管理 、 过 程控 制 、 经 济 预测 中 有 着 非常 广泛 的 应 用 ， 同 时 假设 检验 也 
有 着 很 多 优点 ， 例 如 ， 有 时 候 我 们 无 法 知道 总 体 的 具体 参数 ， 这 时 候 我 们 就 可 以 从 总 体 中 
抽取 样本 来 估计 总 体 参数 的 范围 。 但 是 假设 检验 的 缺点 也 是 很 明显 的 ， 它 无 法 做 到 完全 的 
精准 ， 当 资料 本 身 没有 可 比 性 时 也 无 法 进行 比较 。 所 以 在 采用 假设 检验 时 ， 需 要 先 分 析 自 
己 的 问题 是 否 适合 使 用 假设 检验 。 


11.3 方差 分 析 


方差 分 析 是 通过 划分 误差 来 源 来 分 析 变 量 之 间 关 系 的 一 种 方法 。 具 体 来 看 ， 它 主要 是 
用 来 分 析 分 类 型 自 变量 与 数值 型 因 变 量 之 间 的 关系 。 方 差分 析 可 以 分 为 单 因素 方差 分 析 、 
双 因 素 方差 分 析 和 多 因素 方差 分 析 。 以 下 我 们 以 单 因 素 方差 分 析 为 例 ， 学 习 方 差分 析 的 具 
消费 者 协会 为 了 对 几 个 行业 的 服务 质量 进行 评价 ， 分 别 对 四 个 行业 抽取 了 不 同 企业 在 
2017 年 接收 到 的 投诉 次 数 ， 如 表 11.2 所 示 。 
表 11.2 消费 者 对 四 个 行业 的 投诉 次 数 
No Retail Tourism Airline Industry 


| 44 51 21 | 58 
2 53 56 34 44 
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续 表 
No Industry 
3 77 
4 J 
5 65 
6 
, 


协会 be Aen te nang rt elt d enon 
投诉 次 数 是 否 有 显著 影响 。 根 据 方差 分 析 ， 上 述 判断 最 终 被 归结 为 检验 这 四 个 行业 被 投诉 
ee 若 均 值 相等 ， 则 说 明 行业 对 投诉 次 数 没有 影响 ， 反 之 ， 则 意味 着 它 
们 间 存 在 显著 差异 。 在 具体 学 习 方差 分 析 的 计算 步骤 之 前 ， 我 们 先 了 解 一 些 相关 概念 。 

(1) 因素 (因子 ) : 表示 要 检验 的 对 象 ， 协 会 要 分 析 行 业 对 投诉 次 数 是 否 有 影响 ， 因 
此 行业 即 为 因子 。 

(2) 水 平 ( 处 理 ) : 表示 因子 的 不 同 表现 ， 对 应 于 上 述 例子 ， 四 个 行业 即 为 因子 的 水 平 。 

NO 

(4) 总 体 : 表示 因子 的 每 一 个 水 平 ， 上 述 的 四 个 行业 可 分 别 看 作 一 个 总 体 

(5) 样本 数据 : 被 投诉 次 数 即 可 看 作 四 个 总 体 的 样本 数据 。 

(6) 随机 误差 : 表示 因子 在 同一 总 体 下 ， 样 本 各 观察 值 之 间 的 差异 ， 例 如 ， 同 一 行业 
下 不 同 企业 被 投诉 的 次 数 差异 。 

(7) 系统 误差 : 表示 因子 在 不 同 总 体 下 ， 例 如 ， 不 同行 业 之 间 被 投诉 的 次 数 差 异 ， 这 
种 差异 包括 由 于 抽样 导致 的 随机 误差 ， 与 行业 本 身 造 成 的 系统 误差 。 

(8) 组 内 方差 : 表示 因子 在 同一 总 体 下 样本 数据 的 方差 ， 例 如 ， 零 售 业 被 投诉 次 数 的 
方差 ， 值 得 注意 的 是 组 内 方差 只 包含 随机 误差 。 

(9) 组 间 方 差 : 表示 因子 在 不 同 总 体 下 各 样本 之 间 的 方差 ， 如 四 个 行业 被 投诉 次 数 之 
间 的 方差 ， 其 中 包括 了 随机 误差 与 系统 误差 。 

现在 我 们 接着 分 析 上 述 例子 ， 首 先 假 设 四 个 行业 被 投诉 的 次 数 均值 相等 ， 即 
有 Hm =m =m 二 m4， 则 备 选 假设 且 :mj(i=1,2,3,4) 不 全 相等 。 然 后 构造 检验 的 统计 量 ， 
有 具体 计算 步骤 如 下 。 

(1) 计算 总 体 均值 。 计 算 各 行业 样本 观察 值 的 公式 为 : 
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无 = 三 ia 


其 中 ，% ;表示 在 第 i 个 行业 中 的 企业 j 的 被 投诉 次 数 ，n 表示 行业 i 的 样本 数 ， 由 此 各 行 
业 的 均值 为 : 
_44+353+…+49+66 _ 


49 
Xretail 7 
51+56+…+39+29 
= 一 一 -一 -一 一 =48 
6 
21+34+…+31+49 
am 一 一 =35 
5 
三 8 二 9 二 05 二 
Ta 9 


(2) 计算 全 部 观察 值 的 均值 。 计 算 全 部 观察 值 均值 的 公式 为 ; 


天 而 大 
p29 Zn 
T= k=4 (11-2) 
n n 


其 中 ，% ;表示 在 第 i 个 行业 中 的 企业 jj 的 被 投诉 次 数 ，k 表 示 水 平 数 ，n; 表示 行业 i 的 样本 


数 ，n 表示 全 部 样本 数 ， 由 此 全 部 观察 值 的 均值 为 : 
7.49+6.48+5.35+5.59 


Ee =47.87 
7T+6+5+5 
(3) 计算 方差 。 计 算 组 内 方差 (MSE) 与 组 间 方 差 (MSA) ， 其 公式 分 别 为 : 
k nm 
区 2 全 六 
MSF = 二 王 (11-3) 
n—k 


其 中 ，% ;表示 在 第 i 个 行业 中 的 企业 jj 的 被 投诉 次 数 ， 太 表示 行业 i 的 均值 ，n 表示 全 部 样 
本 数 ，k 表 示 水 平 数 。 
Sn ay 


NMS4 = 忆 一 一 (11-4) 
大 一 1 
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其 中 ,大 表示 行业 i 的 均值 ，x 表 示 全 部 观察 值 的 均值 ，K 表 示 水 平 数 。 对 应 案例 中 的 组 内 
方差 与 组 间 方 差分 别 为 : 
(44 一 49) +……+(65—59) 


MSE = =142.53 
23—4 
2 全 SR 


(4) 计算 检验 统计 量 F 。 对 比 组 内 方差 与 组 间 方 差 ， 计 算 检 验 统计 量 下 : 
FF- MS4 _ 485.54 _ 3 4] 
MSE 142.53 


将 统计 量 下 的 值 与 给 定 显著 性 水 平 & 的 临界 值 进行 比较 , 若 己 > 瓦 ， 则 拒绝 原 假设 H, ， 
否则 将 不 拒绝 原 假设 五 ,。 我 们 设 a=0.005， 即 ,=5.73， 因 为 F=3.41<5.73 ， 所 以 我 们 
不 能 认为 所 检验 的 因素 对 观察 值 有 显著 影响 。 


11.4 统计 回归 分 析 


在 第 10 章 中 ， 我 们 曾经 提 到 过 “回归 ”,“ 回 归 ” 一 词 源 于 19 世纪 生物 学 家 Galton 
的 遗传 学 研究 : 子 辈 的 身高 有 回 到 父辈 平均 身高 的 趋势 。 他 通过 观察 1078 对 夫妇 与 子女 ， 
以 每 对 夫妇 的 平均 身高 作为 x， 取 他 们 成 年 子女 的 身高 为 ?， 将 结果 在 二 维 平面 上 绘 成 散 点 
图 ， 发 现 趋势 近乎 一 条 直线 ， 其 直线 方程 为 ?=33.73+0.516x ， 该 趋势 及 回归 方程 表明 父 
母 平均 身高 x 每 增加 一 个 单位 , 其 成 年 子女 的 身高 y 也 平均 增加 0.516 个 单位 。 这 种 利用 数 
据 统计 原理 ， 确 定 大 量 统计 数据 中 因 变 量 与 某 些 自 变 量 的 相关 关系 ， 并 用 于 预测 今后 的 因 
变量 变化 的 方法 就 称 为 回归 分 析 。 


11.4.1 ”线性 回归 模型 


依旧 使 用 上 述 例子 ， 如 果 现 在 给 定 类 似 的 样本 数据 ， 如 表 11.3 所 示 ， 我 们 将 如 何 构建 
并 计算 父辈 与 子 辈 身高 的 回归 方程 呢 ? 
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表 11.3 ”父辈 与 子 辈 身高 统计 表 


父辈 平均 身高 (my) 子 辈 身高 (my) 


1.62 7 
1.65 1.72 
1.7 1.73 
1.74 E78 
1.78 1.8 
1.83 1.86 
1. 构建 回归 方程 


首先 我 们 需要 把 自 变 量 都 提取 出 来 ， 构 成 特征 变量 对 ， 该 变量 是 一 个 向 量 ， 即 
于 =[x,x,,…,X]。 我 们 可 以 假设 一 个 线性 函数 : 
hs(X)=0, +OxX +Ox, 十 十 十 On (11-5) 
其 中 ，9 为 特征 参数 ， 该 参数 的 大 小 决定 了 特征 变量 x 对 估计 的 影响 程度 。 这 里 我 们 提取 
的 特征 变量 仅 为 父辈 身高 ， 因 此 实际 的 回归 模型 为 : 
ho(X)=0,+Ox (11-6) 
2. 建立 损失 模型 
为 了 达到 最 好 的 拟 合 效果 ， 必 须 有 一 个 函数 去 衡量 模型 的 误差 。 一 般 把 这 个 函数 定义 
为 损失 函数 了: 


J(0)= Fo0° 一 jx 六 (yh 
=1 


其 中 ,h(x ) 表示 线性 函数 h(X) 关于 样本 x 估计 值 ，y® 则 表示 样本 x@ 的 真实 值 。 这 个 
损失 函数 是 对 估计 值 与 真实 值 的 差 的 平方 进行 估计 。 我 们 的 目标 是 使 拟 合 的 损失 最 小 ， 即 
最 小 化 J 函数 的 输出 ， 这 样 求 得 的 9 值 便 是 我 们 理想 中 的 特征 参数 。 下 面 通过 介绍 梯度 下 
降 法 ， 来 降低 拟 合 损失 ， 我 们 将 学 习 到 如 何 使 用 该 方法 求 得 线性 函数 的 最 佳 特征 参数 。 

3. 训练 模型 

以 仆 山 为 例 ， 我 们 在 一 座 大 山上 的 某 处 位 置 ， 由 于 不 知道 怎么 下 山 ， 于 是 决定 走 一 步 
算 一 步 ， 也 就 是 在 每 走 到 一 个 位 置 的 时 候 ， 求 解 当前 位 置 的 梯度 ， 沿 着 梯度 的 负 方 向 ， 也 
就 是 当前 最 陡峭 的 位 置 向 下 走 一 步 ， 然 后 继续 求解 当前 位 置 梯度 ， 向 这 一 步 所 在 位 置 沿 着 
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最 陡峭 最 易 下 山 的 位 置 走 一 步 。 一 直 走 到 山脚 。 当 然 有 可 能 我 们 不 能 走 到 山脚 ， 而 是 到 了 
某 一 个 局 部 的 山峰 低 处 。 在 具体 了 解 梯度 下 降 的 算法 之 前 ， 先 看 看 一 些 相关 概 念 。 

梯度 ,在 微 积分 中 ,梯度 以 向 量 的 形式 表示 多 元 函数 对 参数 的 0 偏 导 , 例如, 函数 g(x,y) 
分 别 对 x,y 求 偏 导 ， 梯 度 向 量 即 为 (Gg/6x,6g/6y)”， 简 称 grad g(x,y) 或 者 Ve(x,y) 。 从 几何 
意义 上 讲 ， 梯 度 就 是 函数 变化 最 快 的 方向 。 具 体 来 说 ， 对 于 函数 g(x,y) 在 点 (x。,y。)， 梯 度 
量 (6g/6x,,60g/6y,)" 就 是 g(x,y) 变化 最 快 的 方向 , 即 沿 着 梯度 向 量 的 方向 , 更 加 容易 找到 
函数 的 极 值 。 
步 长 (学 习 率 ) 。 步 长 决定 了 在 梯度 下 降 迭 代 过 程 中 ， 每 一 步 沿 梯度 方向 前 进 的 长 度 ， 
即 店 山 例 子 中 ， 所 在 位 置 沿 最 陡峭 方向 下 山 走 的 那 一 步 长 度 。 

(1) 计算 损失 函数 梯度 。 针 对 上 文 的 损失 函数 了 了， 对 应 的 图 像 如 图 11.2 所 示 。 


17.5 上 


可 


15.0r 
12.5 上 


10.0 上 B 


J(h(x)) 


SFE 


5.0r 


-10 5 0 3 10 
h(x) 
图 11.2 损失 函数 坐标 图 
假设 线性 函数 f(x) 在 图 中 的 B 点 ， 求 解 梯 度 首先 需要 对 了 在 B 点 的 8 参数 求 导 ， 其 


表达 式 如 〈11-8) 所 示 。 


grad J(0) = 160,00) = Th?)x® C11-8) 
00 m i 


J 


(2) 更 新 特征 参数 。 在 得 到 函数 了 在 B 点 的 梯度 (移动 方向 ) 后 ， 定 义 步 长 a ， 即 每 
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一 步 沿 梯度 方向 前 进 的 长 度 ， 并 将 其 代入 特征 参数 的 更 新 公式 〈11-9) 中 : 
0=0+0-.grad J(0) (11-9) 
在 更 新 完 特征 参数 ， 万 (xz) 从 点 降 到 点 C 后 ,计算 (x) 在 C 点 的 损失 值 ， 若 该 值 小 
于 一 定 闪 值 或 达到 最 大 友 代 次 数 ， 则 返回 特征 参数 ， 和 否则 将 继续 更 新 特征 参数 ， 直 到 损失 
函数 收敛 或 达到 从 代 限制 条 件 。 


11.4.2 ”实例 说 明 


在 理解 了 上 述 的 步骤 后 ,我 们 创建 名 为 linear regression py 文件 ,并 在 linear_regression.py 
文件 中 创建 Linear regression 类 ， 如 程序 11.8 所 示 。 


显 序 11.8 ”创建 Linear regression 类 : 


1: class Linear regression(object): 

9 def _init (self, weights, learning rate, num iter, threshold ): 

Ee Wad 

4: 输入 : 线性 回归 实例 self， 特 征 参数 weights， 步 长 leaming rate， 
最 大 友 代 次 数 num_iter， 回 归 模型 误差 阔 值 threshold 

3 输出 : 无 

6: 描述 : 线性 回归 构造 函数 

过 ee 

8 self.weights = weights 

9: self.learning rate = learning rate 

10: selfnum iter = num iter 

I self.threshold = threshold 

2: super(Linear regression, self)._ init _(O 


首先 我 们 以 表 11.3 的 数据 为 例 ， 假 设 预测 函数 h(x) 是 一 个 一 元 一 次 方程 : 
h(x) = +On 
初始 化 其 特征 参数 @, =0.45 ，& =1， 然 后 根据 损失 函数 了 计算 梯度 grad .7(@ ) : 
grad J(0) =2 D0 -0 0) 


2 < 0 D 人 
grad J(0) = 0 -0) 


将 表 11.3 的 数据 依次 代入 公式 ， 得 到 grad J(0,)= -2.43 ，grad J(0)=-4.1878 ， 梯 度 
计算 结束 。 该 过 程 对 应 到 Linear regression 类 的 方法 如 程序 11.9 所 示 。 


.194 。 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 》 


程序 11.9 计算 损失 函数 梯度 : 


def compute grandient(self, dataset, labels): 


输入 : 线性 回归 实例 self， 训 练 数 据 集 dataset， 标 签 集合 labels 
输出 : 损失 函数 梯度 w_gradient 
描述 : 计算 损失 函数 梯度 


m= float(len(dataset)) 
h= dataset * self.weights 
w_gradient = (2 / m) * dataset.transpose() * (labels - b) 
Tetum w_gradient 
然后 我 们 通过 定义 的 步 长 a = 0.01， 更 新 特征 参数 : 
0,=0.45—0.01x2.43=0.4257 
0 =1-0.01.4.1878=0.9581 
之 后 将 更 新 后 的 参数 代入 损失 函数 ， 计 算 损 失 值 7=0.09564 ， 在 其 不 满足 结束 条 件 的 
情况 下 ， 继 续 更 新 特征 参数 ， 直 到 损失 小 于 阔 值 或 达到 最 大 迭代 限制 。 特 征 参数 更 新 对 应 
到 Linear regression 类 的 方法 如 程序 11.10 所 示 。 
程序 11.10 ”更 新 特征 参数 : 


i 


Ee 
by 


def update_ weights(self, w_gradient): 


mm 


下 

2: 

3 输入 : 线性 回归 实例 self， 损 失 函 数 梯度 w_gradient 
4: 输出 : 无 

5: 描述 : 根据 损失 函数 梯度 ， 更 新 特征 参数 

6: 

Fe 


mm 


self.weights += self.learning rate * W_gradient 
现在 我 们 尝试 着 将 前 面 的 知识 点 串联 起 来 , 从 而 梳理 出 一 个 完整 的 线性 回归 算法 流程 ， 
如 图 11.3 所 示 。 
参照 完整 的 线性 回归 算法 流程 图 , 我 们 在 Linear regression 类 中 编写 程序 如 程序 11.11 所 示 。 
程序 11.11 线性 回归 训练 方法 : 


def fit(self dataset, labels): 

2 yn 

3: 输入 : 线性 回归 实例 self， 训 练 数据 集 dataset， 标 签 集合 labels 
4: 输出 : 无 

5 描述 : 利用 梯度 下 降 法 ， 迭 代 训 练 模型 特征 参数 
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_, n= np.shape(dataset) 
self weights = np.ones((n, 1)) 
for i in range(self.num iter): 
self.gradient_descend(dataset, labels) 
h= dataset * self.weights 
error = np.math.fabs(np.sum((labels - h), axis=0)[0, 0]) 
if error <= self.threshold: 
break 


def gradient descend(self dataset, labels): 


mm 


输入 : 线性 回归 实例 self， 训 练 数 据 集 dataset， 标 签 集合 labels 
输出 : 
描述 : 利用 损失 函数 梯度 更 新 特征 参数 


mm 


w_gradient = self.compute_ grandient(dataset, labels) 
selfupdate_ weights(w_gradient) 


输入 训练 集 数 据 


定义 目标 函数 与 损失 函数 


计算 损失 函数 梯度 


更 新 特征 参数 


计算 损失 值 


上 阔 值 或 达到 最 大 和 迭代 次 


损失 值 小 ] 


结束 


图 11.3 线性 回归 算法 流程 图 


“195。 


。196 。 人 工 智能 基础 教程 : Python 篇 〈 青 少 版 ) 


阅读 至 此 ， 我 们 已 经 完成 了 对 线性 回归 算法 训练 阶段 的 学 习 ， 接 下 来 将 是 本 文 简单 但 
有 实际 意义 的 一 环 : 线性 回归 预测 ， 对 于 一 个 测试 对 象 ， 我 们 只 需 依次 输入 该 对 象 的 特征 
值 ，Linear regression 类 将 根据 以 前 的 训练 模型 自动 预测 该 对 象 的 值 ， 其 具体 程序 如 程序 
11.12 所 示 。 

程序 11.12 ”线性 回归 预测 方法 : 
def predict(self, testset): 


mm 


输入 : 线性 回归 实例 self， 测 试 数据 集 testset 
输出 : 预测 值 
描述 : 利用 线性 回归 训练 模型 ， 预 测 测试 数据 值 


mm 


estimate = testset * self weights 
Tetumn estimate 


最 后 我 们 只 需 通 过 一 个 数据 加 载 和 入 口 函数 就 可 得 到 一 个 可 运行 的 代码 实例 ， 其 代码 
如 程序 11.13 所 示 。 
呈 序 11.13 ”数据 加 载 函 数 与 入 口 函 数 : 


DN 


i import numpy as np 

2 

3: defload dataset(filename, delimiter=","): 

4: bole 

过 输入 : 数据 文件 名 flename， 数 据 分 隔 符 delimiter 
6: 输出 : 训练 数据 集合 ， 标 签 集合 

描述 : 加 载 训练 数据 集合 ， 标 签 集合 

8: SN 

9: data = np.loadtxt(filename, delimiter=delimiter) 

uy dataset = np.concatenate((np.ones((len(data), 1)), data[:, :-1]), axis=1) 
is labels = data[:, -1] 

jE return np.mat(dataset), np.mat(labels).transpose() 

13; 

14: if_name 一" main *: 

13: filename = 'height.data' 

16: dataset, labels = load_dataset(filename) 

17: linear regression = Linear Tregression() 

18: linear regression.fit(dataset, labels) 

19: testset = np.mat([1,1.65]) 


20: print(linear_regression.predict(testset)) 
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11.5” 污 结 


我 们 在 本 章 中 回顾 了 统计 学 中 计量 资料 的 统计 描述 ， 有 均值 、 中 位 数 、 极 差 、 方差 等 ， 
并 具体 学 习 了 假设 检验 与 线性 回归 分 析 模 型 与 计算 流程 ， 如 在 假设 检验 中 ， 提 出 假设 、 计 
算 检验 统计 量 、 设 置 显著 性 水 平 、 根 据 统计 量 与 临界 值 决 定 是 否 推翻 假设 ， 线 性 回归 算法 
中 ， 线 性 函数 与 损失 函数 的 构造 ， 基 于 梯度 下 降 法 的 特征 参数 迭代 更 新 等 。 


11.6 练 习 


(1) 定义 一 个 函数 statistic， 要 求 在 函数 内 随机 生成 1000 个 自然 数 的 列表 ， 并 分 别 统 
计 列 表 中 数值 的 算术 均值 、 中 位 数 、 总 体 标准 差 等 。 
(2) 根据 上 述 消费 者 协会 的 案例 ， 编 写 函 数 analyze_variance(complaint_dict)， 实 现 方 
差分 析 具 体 逻 辑 。 
(3) 某 省 1978 一 1986 年 居民 消费 品 购买 力 和 居民 货币 收入 统计 如 表 11.4 所 示 。 
表 11.4 居民 消费 品 购买 力 和 居民 货币 收入 统计 
年份 居民 消费 品 购买 力 * 居民 货币 收入 y 


1980 17.1 
1981 19.6 
1982 22.1 
1983 25.6 
1984 33.6 
1985 40.5 
1986 47.8 


请 求 出 该 省 居民 消费 品 购买 力 和 居民 货币 收入 之 间 的 回归 方程 。 
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12.1 基于 了 Python 的 数据 管理 与 分 析 


数据 分 析 是 基于 某 种 行业 目的 ， 有 导向 地 进行 收集 、 整 理 、 加 工 和 分 析 数 据 的 过 程 ， 
在 此 过 程 中 ， 我 们 可 以 使 用 统计 分 析 、 数 据 挖掘 等 方式 或 方法 提取 有 用 的 信息 ， 并 进行 概 
括 与 总 结 。 如 经 典 的 “啤酒 与 尿布 ”营销 案例 : 20 世纪 90 年 代 的 美国 沃尔玛 超市 中 ，“ 啤 
酒 ” 与 “尿布 ”两 件 商品 会 经 常 出 现在 年 轻 的 父亲 的 购物 篮 中 ， 超 市 的 管理 人 员 跟 进 研究 
发 现 ， 在 美国 有 婴儿 的 家 庭 中 ， 一 般 由 母亲 在 家 照看 婴儿 ， 年 轻 的 父亲 出 门 购买 尿布 。 父 
亲 在 购买 尿布 的 同时 ， 往 往 会 顺便 为 自己 购买 啤酒 ， 这 样 就 出 现 了 啤酒 与 尿布 这 样 两 件 看 
上 去 毫 无 关联 的 商品 经 常会 出 现在 同一 个 购物 篮 的 现象 。 

在 得 此 结论 后 ， 沃 尔 玛 开始 尝试 着 将 啤酒 与 尿布 摆 放 在 相同 的 区 域 ， 让 年 轻 的 父亲 可 
以 更 便捷 地 找到 这 两 件 商品 , 并 为 获取 更 好 的 商品 销售 收入 , 进而 推出 一 次 可 同时 购买 “ 啤 
酒 与 尿布 ”套餐 的 活动 。 由 此 可 见 ， 数 据 分 析 挖 掘 与 概括 的 潜在 信息 和 事物 规律 ， 对 于 我 
们 日 常 的 生活 、 工 作 等 方面 具有 一 定 的 指导 意义 ， 并 且 随 着 互联 网 的 莲 勃 发 展 ， 越 来 越 多 
的 应 用 涉及 大 数据 ， 在 这 些 大 数据 的 背后 潜在 的 又 是 怎样 的 数据 规律 ， 都 需要 我 们 进一步 
的 研究 与 探索 ， 基 于 如 此 的 认识 ， 数 据 分 析 常 用 的 理论 与 方法 又 有 哪些 呢 ? 

(1) 统计 分 析 : 统计 是 进行 科学 研究 的 重要 方法 ， 通 过 数字 揭示 事物 在 特定 时 间 方 面 
的 数量 特征 ， 以 便 对 事物 进行 定量 乃至 定性 分 析 ， 从 而 做 出 正确 的 决策 ， 其 常见 的 方法 有 
描述 性 统计 分 析 、 集 中 趋势 分 析 、 相 关 分 析 、 方 差分 析 、 回 归 分 析 等 。 

(2) 数据 挖掘 : 数据 挖掘 是 数据 分 析 的 理论 核心 ,各 种 数据 挖掘 的 算法 基于 不 同 的 数 
据 类 型 和 数据 关联 方式 ， 连 代 训 练 关 系 模型 ， 深 入 数据 内 部 ， 挖 掘 数据 潜在 价值 ， 其 中 经 
典 的 算法 有 C4.5 决策 树 、K-means 聚 类 、SVM 分 类 、Apriori 算法 等 。 

为 了 更 方便 地 统计 与 挖掘 数据 , 许多 优秀 的 统计 分 析 的 语言 和 工具 被 我 们 开发 与 使 用 ， 
就 如 Python 语言 。Python 是 一 种 面向 对 象 的 解释 型 计算 机 程序 设计 语言 ， 它 具有 丰富 而 强 
大 的 库 ， 如 专用 的 科学 计算 扩展 模块 numpy、scipy 和 matplotlib， 以 及 机 器 学 习 、 数 据 挖 
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据 模 块 scikit-leam、tensorflow 等 ， 它 们 为 Python 提供 了 快速 数组 处 理 、 数 值 运算 、 模 型 训 
练 以 及 绘图 等 功能 ， 为 数据 分 析 提 供 了 简洁 、 方 便 的 调用 接口 。 下 面 我 们 将 以 统计 学 生成 
绩 为 例 ， 有 具体 介绍 基于 Python 语言 的 数据 分 析 过 程 。 


12.2 ”数据 的 导入 与 导出 


数据 分 析 的 第 一 阶段 是 获取 数据 ， 通 常情 况 下 ， 数 据 会 以 文本 文件 或 数据 库 链接 等 形 
式 呈 现 给 我 们 ， 我 们 要 做 的 工作 则 是 通过 一 些 加 载 模块 完成 数据 从 文件 到 程序 ， 或 从 程序 
到 文件 的 转换 操作 。 这 是 一 项 艰巨 且 重要 的 工作 ， 但 Python 将 使 该 工作 变 得 异常 简单 ， 只 
需 几 行 代码 ， 就 可 轻松 导入 和 导出 数据 了 ， 下 面 我 们 将 分 别 介绍 以 下 几 种 存储 文件 基于 
Python 的 导入 、 导 出 操作 ; 

(1) CSV 

(2) Excel 

(3) SQL 


12.2.1 CSV 文件 的 导入 与 导出 


1. CSV 文件 的 导入 
我 们 通过 人 工 统计 ， 手 动 生成 的 学 生成 绩 数据 文件 ， 如 表 12.1 所 示 。 
表 12.1 学 生成 绩 表 


Student ID 
1807022101 
1807022102 
1807022103 
1807022104 
1807022105 


English 


90 
98 


接 下 来 的 工作 是 把 该 数据 文件 导入 到 程序 中 ， 其 具体 导入 过 程 参 见 程序 12.1。 
程序 12.1 CSV 文件 的 导入 : 
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1: ， import pandas as pd 
2: file path= "report.csv" 
3: df=pd.read csv(file path, encoding='utf-8) 
4: print(df.head()) 
输出 : 

Student ID Name Hour Chinese Math English 
0 1807022101 Alan 6 80 80 80 
1 1807022102 Bing 10 78 90 94 
2 1807022103 Ben 8 67 87 90 
3 1807022104 Calvin 9 76 78 98 
4 1807022105 Carter 8 87 78 79 
分 析 : 


在 导入 文件 程序 的 开头 ， 需 要 先 引入 Python 的 pandas 模块 ，pandas 库 提供 了 大 量 
能 使 我 们 快速 便捷 地 处 理 数 据 的 函数 和 方法 ， 在 确定 了 CSV 文件 的 所 在 路 径 后 ， 调 用 
pandas 的 read_csv 方法 , 传 入 文件 路 径 并 指定 编码 方式 , 这样 就 完成 了 文件 数据 的 导入 
工作 ,最 后 得 到 一 个 DataFrame 对 象 df, 我 们 可 以 通过 访问 该 对 象 的 属性 ,获取 特定 单 
元 的 值 。 

2. CSV 文件 的 导出 

假设 我 们 已 经 完成 成 绩 分 析 ， 并 得 到 了 相关 统计 信息 ， 之 后 要 做 的 就 是 把 这 些 分 析 数 
据 保 存 为 文件 ， 存 储 到 磁盘 中 ， 其 具体 过 程 参 见 程 序 12.2。 

程序 12.2 CSV 文件 的 导出 : 


1: import pandas as pd 

2: subject=['Chinese', "Math', 'English'] 

3: value=[77.6, 82.5, 88.2] 

4: mean list= list(zip(subject, value)) 

5: df=pd.DataFrame(data=mean list, columns=['Subject', "Means']) 
6: dfto csv('subject means.csv', index=False, header=-True) 

输出 : 

Subject,Means 

Chinese,77.6 

Math,82.5 


English,88.2 
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分 析 : 

同样 ， 在 导出 数据 到 文件 的 过 程 中 ， 仍 是 借助 于 pandas 模块 ， 在 我 们 模仿 一 些 分 析 数 
据 后 ， 调 用 pandas 的 DataFrame 类 的 构造 函数 ， 传 入 数据 与 列 名 ， 在 得 到 DataFrame 对 象 
后 ,再 通过 to_csv 方法 ， 指 定 导出 路 径 与 其 他 一 些 选 项 ， 如 是 否 生成 索引 、 表 头等 ， 完 成 
数据 的 导出 工作 。 


12.2.2 ”Excel 文件 的 导入 与 导出 


1. Excel 文件 的 导入 

同样 以 表 12.1 中 的 数据 为 例 , Python 将 Excel 格式 数据 导入 的 具体 过 程 参见 程序 12.3。 
程序 12.3 Excel 文件 的 导入 : 

1: import pandas as pd 


2: file path = "report.xlsx" 
3: df=pd.read excel(file path) 
4: print("the table of report:\n{0}\n".format(df)) 
输出 : 
the table of report: 

Student ID Name Hour Chinese “Math English 
0 1807022101 Alan 6 80 80 80 
1 1807022102 Bing 10 78 90 94 
2 1807022103 Ben 8 67 87 90 
3 1807022104 Calvin 9 76 78 98 
4 1807022105 Carter 8 87 78 79 
分 析 : 


与 导入 CSV 文件 类 似 ， 需 要 先 引 入 pandas 模块 ,确定 Excel 文件 路 径 ， 再 调用 pandas 
的 read_excel 方法 ， 传 入 文件 路 径 ， 得 到 一 个 DataFrame 对 象 df， 之 后 就 可 以 通过 操作 该 
对 象 的 属性 ， 访 问 或 修改 特定 单元 的 值 。 
2. Excel 文件 的 导出 
我 们 在 得 到 统计 信息 后 ， 如 果 需 要 将 该 信息 以 Excel 格式 存储 到 磁盘 ， 那 么 同样 将 使 
pandas 模块 ， 其 具体 过 程 参 见 程序 12.4。 
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程序 12.4 ”Excel 文件 的 导出 : 


import pandas as pd 

subject = ['Chinese', "Math', 'English'] 

value = [77.6, 82.5, 88.2] 

mean list = list(zip(subject, value)) 

df = pd.DataFrame(data=mean list, columns=['Subject', "Means']) 
writer = pd.ExcelWriter('subject_means.xlsx', engine='xlsxwriter’) 
dfto_excel(writer, sheet_ name='Sheetl) 

writer.save() 


输出 : 


Subject,Means 
Chinese,77.6 
Math,82.5 
English,88.2 


分 析 : 

与 导出 CSV 文件 不 同 的 是 ， 我 们 在 依次 导入 pandas 模块 、 模 拟 统计 数据 、 生 成 
DataFrame 对 象 后 ， 调 用 ExcelWriter 方法 ， 传 入 导出 路 径 与 xlsx 解析 引擎 ， 得 到 Excel 文 
件 的 输出 流 ， 接 着 将 df 对 象 绑 定 到 输出 流 ， 并 将 输出 流通 过 save 方法 ， 生 成 Excel 文件 到 
指定 路 径 。 


12.2.3 ”SQL 数据 的 导入 与 导出 


1. SQL 数据 的 导入 

除了 上 述 文件 外 ， 数 据 也 可 能 来 源 于 数据 库 ， 我 们 以 导入 SQLite 数据 库 数据 为 例 ， 具 
体 程序 如 程序 12.5 所 示 。 

程序 12.5”SQLite 数据 的 导入 : 


import pandas as pd 

位 om sqlalchemy Import create_engine 

db _file = r'report.db' 

engine = create_engine(r"sqlite:///{}".format(db_file)) 
Sql = 'select * from tb_report' 

df= pd.read sql(sql, engine) 

print("the table of report:\n{0}\n".format(df)) 


i 


en 
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输出 : 
the table of report: 
Student ID Name Hour Chinese “Math English 

0 1807022101 Alan 6 80 80 80 

1 1807022102 Bing 10 78 90 94 

2 1807022103 Ben 8 67 87 90 

3 1807022104 Calvin 9 76 78 98 

4 1807022105 Carter 8 87 78 79 

分 析 : 


可 以 看 到 ， 我 们 在 加 载 SQLite 数据 前 ， 依 次 导入 了 pandas 模块 和 sqlalchemy 的 
create_engine 函数 ， 之 后 开始 创建 数据 库 引擎 ， 并 将 其 关联 数据 库 文件 db_file， 最 后 通过 
sql 的 查询 语句 检索 出 学 生 的 成 绩 信息 。 

2. SQL 数据 的 导出 

与 上 述 导 出 方式 不 同 ， 接 下 来 我 们 将 统计 数据 保存 到 SQLite 数据 库 中 ， 如 程序 12.6 
所 示 。 

旺 序 12.6 ”SQLite 数据 的 导出 : 


import pandas as pd 

import sqlite3 as sql 

subject = ['Chinese', "Math', 'English'] 

value = [77.6, 82.5, 88.2] 

mean list = list(zip(subject, value)) 

df= pd.DataFrame(data=mean list, columns=['Subject", "Means']) 

db_file =r'report_stat.db' 

conn = sql.connect(db_file) 

df.to_sql('tb_stat',conn,flavor='sqlite',schema=None,if exists='replace',index=False, 
index_label=None,chunksize=None,dtype=None) 

10: conn.close() 


OD eo OO 


分 析 : 

我 们 在 把 数据 导出 到 SQLite 数据 库 时 ， 除 了 引入 pandas 模块 ， 还 引入 了 sqlite3 的 sql 
模块 ， 并 将 统计 数据 封装 为 DataFrame 对 象 ， 接 着 调用 sql 模块 的 connect 方法 ,连接 数据 
库 , 之 后 通过 DataFrame 对 象 的 to_sql 方 法 将 数据 导出 到 数据 库 文件 report_stat.db 的 tb_stat 
表 中 ， 最 后 关闭 数据 库 连 接 。 
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12.3 数据 分 析 


接 下 来 将 进入 数据 分 析 的 第 二 阶段 一 一 数据 分 析 。 在 本 阶段 , 我 们 通过 使 用 Python 的 库 
函数 轻松 完成 信息 的 计量 统计 、 数 据 的 关联 度 分 析 等 , 仅仅 是 一 小 段 代 码 , 我 们 就 可 以 实现 : 

(1) 计算 资料 描述 统计 量 。 

(2) 计算 数据 关联 度 。 

(3) 数据 间 的 线性 回归 分 析 。 

12.3.1 ”聚合 统计 量 分 析 

同样 以 表 12.1 中 的 数据 为 例 ， 我 们 可 以 通过 统计 各 学 科 成 绩 的 算术 平均 数 、 中 位 数 、 


极 差 、 标 准 差 等 ， 以 了 解 其 分 布 或 是 趋势 等 ， 具 体 程序 如 程序 12.7 所 示 。 
程序 12.7 计算 资料 描述 统计 量 : 


ON Ro 


import pandas as pd 

file_path = "report.csv" 

df=pd.read csv(file_path, encoding="utf-8") 

print("the means of Chinese: {0}" .format(df['Chinese'].mean())) 

print("the median of Chinese: {0}".format(df{'Chinese'].median())) 

print("the span of Chinese: {0}".format(df{'Chinese'].max() - dff'Chinese'].min())) 
print("the standard of Chinese: {0}".format(df['Chinese'].std())) 

Print("\n") 

print("the means of Math: {0}".format(df{"Math'].mean())) 

print("the median of Math: {0}".format(df{"Math'].median())) 


: print("the span of Math: {0}".format(df{"Math'].maxO - dffMath']min0)) 


print("the standard of Math:{0}".format(df["Math'].stdO)) 


:print(\n") 


print("the means of English: {0}".format(df['English'].mean())) 


: print("the median of English: {0}".format(df['English'].median())) 


print("the span of English: {0}".format(df['English'].max() - dff'English'].minO)) 
print("the standard of English: {0}".format(df['English'].std0)) 


输出 : 


the means of Chinese:77.6 
the median of Chinese:78.0 
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the span of Chinese:20 
the standard of Chinese:7.231873892705818 


the means of Math:82.6 

the median of Math:80.0 

the span of Math:12 

the standard of Math:5.5497747702046425 


the means of English:88.2 

the median of English:90.0 

the span of English:19 

the standard of English:8.438009243891594 


分 析 : 

在 上 述 程序 中 ， 我 们 通过 调用 pandas 模块 的 函数 ， 分 别 统计 出 学 生 各 科 成 绩 的 平 
均值 、 中 位 数 、 极 差 与 标准 差 等 ， 稍 加 分 析 可 以 看 出 ， 学 生 的 英语 平均 成 绩 较 为 突出 ， 
但 极 差 与 标准 差 统计 值 较 大 ， 说 明 学 生 整 体 英语 水 平 波动 较 大 ， 而 在 数学 成 绩 中 ， 其 平 
均 成 绩 与 波动 状况 等 都 表现 稳定 , 但 学 生 的 语文 成 绩 则 完全 与 之 相反 ,有 待 进一步 巩固 
加 强 。 


12.3.2 ”关联 度 分 析 


关联 度 分 析 是 指 对 两 个 或 多 个 具备 相关 性 的 变量 元 素 进行 分 析 ， 从 而 衡量 两 个 变量 因 
素 的 相关 密切 程度 。 在 本 节 中 ， 我 们 将 通过 协 方差 、 相 关系 数 与 线性 回归 分 析 等 方面 挖掘 
数据 间 的 关联 关系 。 

1. 协 方差 分 析 

协 方差 一 般 用 来 衡量 两 个 变量 的 总 体 误 差 ， 如 果 两 个 变量 的 变化 趋势 一 致 ， 协 方差 就 
是 正 值 ， 说 明 两 个 变量 正 相 关 。 如 果 两 个 变量 的 变化 趋势 相反 ， 协 方差 就 是 负 值 ， 说 明 两 
个 变量 负 相 关 。 如 果 两 个 变量 相互 独立 ， 那 么 协 方差 就 是 0， 说 明 两 个 变量 不 相关 。 以 下 
是 协 方差 的 计算 公式 : 


ZG -0 -7) 
(= (12-1) 
i 


在 表 12.1 中 ， 除 了 学 生成 绩 ， 还 可 以 看 到 另 一 个 关键 信息 一 一 学 习 时 长 ， 现 在 我 们 基 
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于 协 方差 来 分 析 学 生 每 天 的 学 习 用 时 与 本 次 综合 成 绩 的 关联 关系 ， 具 体 程序 如 程序 12.8 
所 示 。 
程序 12.8 学习 时 长 与 综合 成 绩 的 协 方差 : 


import numpy as np 

import pandas as pd 

file path = "report.csv" 

df= pd.read csv(file_path, encoding="utf-8") 

print("the table of report:\n{0}".format(df)) 

report = list(df.iloc[:, 3:].sum(axis=1)) 

hour_report = list(df["Hour"]) 

hour_report.extend(report) 

data = np.array(hour_report).reshape(5, 2, order="F") 

10: df hour report= pd.DataFrame(data, columns=['Hour', 'Report']) 
11: print("the table of hour_ report:\n{0}".format(df hour_report)) 


rs 


12: print(\n") 
13: print("the covariance of hour_ report:\n{0}".format(df hour report.covO)) 
输出 : 
the table of report: 
Student ID Name Hour Chinese “Math English 
0 1807022101 Alan 6 80 80 80 
1 1807022102 Bing 10 78 90 94 
2 1807022103 Ben 8 67 87 90 
3 1807022104 Calvin 9 76 78 98 
4 1807022105 Carter 8 87 78 79 


the table of hour_report: 


Hour Report 
0 6 240 
1 10 262 
2 8 244 
3 中 252 
4 8 244 


the covariance of hour_report: 
Hour Report 

Hour 和 2 11.9 

Report 11.9 76.8 
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分 析 : 
在 成 功 导入 数据 后 ， 首 先 抽取 了 学 生 的 各 门 学 科 成 绩 计算 累加 和 ， 并 将 其 和 学 生 每 天 
的 学 习 时 长 合并 , 创建 出 一 个 新 的 DataFrame 对 象 df hour report, 接着 调用 df hour report 
的 cov 方法 ， 计 算 学 习 时 长 与 综合 成 绩 的 协 方差 cov(hour,reporb) =11.9 ， 说 明 有 效 学 习 时 
长 与 综合 成 绩 正 相关 ， 即 学 生 每 天 有 效 的 学 习 用 时 越 长 ， 综 合成 绩 越 高 。 
2. 相关 系数 分 析 
协 方差 可 以 通过 数字 衡量 变量 间 的 相关 性 ， 却 无 法 针对 相关 的 密切 程度 进行 度量 ， 如 
学 生 每 日 有 效 的 学 习 用 时 与 综合 成 绩 的 相关 程度 ， 当 我 们 面 对 多 个 变量 时 ， 无 法 通过 协 方 
差 来 说 明 哪 两 组 数据 的 相关 性 最 高 。 要 衡量 和 对 比 相 关 性 的 密切 程度 ， 就 需要 使 用 下 一 个 
方法 一 一 相关 系数 。 
相关 系数 是 反应 变量 之 间 关 系 密 切 程度 的 统计 量 ， 相 关系 数 的 取 值 区 间 在 -1 一 1 之 间 。 
1 表示 两 个 变量 完全 线性 相关 ，-1 表示 两 个 变量 完全 负 相关 ，0 表示 两 个 变量 不 相关 。 数 
据 越 趋 近 于 0 表示 相关 关系 越 弱 ， 其 计算 公式 如 (12-2〉 所 示 。 
9 
my 三 SS (12-2) 
其 中 ，x, 表示 样本 相关 系数 ，S,, 表示 样本 协 方差 ，S, 表示 x 的 样本 标准 差 ，S, 表示 了 的 
样本 标准 差 。 接 下 来 我 们 将 相关 系数 代入 学 生成 绩 的 例子 ， 上 有 具体 程序 如 程序 12.9 所 示 。 
程序 12.9 学习 时 长 与 综合 成 绩 的 相关 系数 : 
import math 
import numpy as np 
import pandas as pd 
file_path = "report.csv" 
df= pdread_csv(file path, encoding="utf-8") 
print("the table of report:\n{0}\n".format(df)) 
report = list(df.iloc[:, 3:].sum(axis=1)) 
hour_report = list(df["Hour"]) 
hour_report.extend(report) 
: _ data = np.array(hour_report).reshape(5, 2, order="F") 
: df hour report = pd.DataFrame(data, columns=[Hour，Report]) 
: _ print("the covariance of hour_report:\n{0}\n".format(df hour reportcovO)) 
: matrix cov= df hour reportcovO 
: coefficent cor=round( 


ms 


Si 


于 
WO 一 O 
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matrix_cov["Hour"]["Report"] / math.sqrt(matrix_cov["Hour"]["Hour"]) / 
math.sqrt(matrix_cov["Report"]["Report"]), 2) 
15: print("the coefficent between hour and report is: {0}".format(coefficent_cor)) 


输出 : 
the table of report: 
Student ID Name Hour Chinese “Math English 

0 1807022101 Alan 6 80 80 80 

1 1807022102 Bing 10 78 90 94 

2 1807022103 Ben 8 67 87 90 

3 1807022104 Calvin 9 76 78 98 

4 1807022105 Carter 8 87 78 79 


the covariance of hour report: 
Hour Report 

Hour 人 11.9 

Report 11.9 76.8 


the coefficent between hour and report is:0.92 


分 析 : 

我 们 基于 协 方差 的 计算 流程 ， 在 得 到 时 长 与 成 绩 的 协 方差 后 ， 将 相关 变量 代入 公式 
(12-2) ， 最 后 得 出 有 效 学 习 时 长 与 综合 成 绩 的 相关 系数 correlation _coefficent = 0.92 ， 从 
数值 的 层面 可 以 说 明 ， 学 生 每 天 有 效 的 学 习 时 长 与 综合 成 绩 正 相关 ， 且 两 者 的 关联 性 强 。 

3. 线性 回归 分 析 

我 们 在 得 出 时 长 与 成 绩 具 有 较 强 关联 的 结论 后 ， 可 尝试 着 使 用 回归 分 析 描 述 出 其 对 应 
的 关联 关系 ， 回 归 分 析 是 确定 两 组 或 两 组 以 上 变量 间 关 系 的 统计 方法 。 回 归 分 析 按 照 变量 
的 数量 分 为 一 元 回归 和 多 元 回归 。 我 们 的 数据 中 只 包含 学 习 时 长 和 综合 成 绩 两 个 变量 ， 因 
此 使 用 一 元 回归 ， 接 下 来 将 通过 调用 scikit-leam 模块 完成 两 者 线性 模型 的 学 习 ， 具 体 程序 
如 程序 12.10 所 示 。 

程序 12.10 学习 时 长 与 综合 成 绩 的 线性 模型 : 


import pandas as pd 

from sklearn.linear model import LinearRegression 
file_path = "report.csv" 

df= pd.read csv(file path, encoding="utf-8") 


We 
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5: print("the table of report:n{0}\n".format(df)) 
6: hour= df["Hour"].values.reshape(5, 1) 
7: report= df.iloc[:, 3:].sum(axis=1).values.reshape(5, 1) 
8: linear reg = LinearRegression() 
9: linear reg.fit(hour, report) 
10: print("the correlation formula between hour and report is:\n" + 
"y={0}x+{1}".format(linear_reg.coef [0][0], linear reg.intercept [0])) 
输出 : 
the table of report: 
Student ID Name Hour Chinese “Math English 
0 1807022101 Alan 6 80 80 80 
1 1807022102 Bing 10 78 90 94 
2 1807022103 Ben 8 67 87 90 
3 1807022104 Calvin 9 76 78 98 
4 1807022105 Carter 8 87 78 79 


the correlation formula between hour and report is: 
y=5.40909091x+204.04545455 


分 析 : 

在 案例 中 ， 综 合成 绩 是 随 着 有 效 学 习 时 长 的 变化 而 改变 的 ， 因 此 我 们 在 导入 数据 到 程 
序 后 ， 首 先 抽取 出 学 生 学 习 时 长 与 各 科 成 绩 数据 ， 将 学 习 时 长 设置 为 自 变量 x， 并 统计 出 
综合 成 绩 后 ， 将 其 设置 为 因 变 量 y， 之 后 分 别 将 变量 作为 实 参 传 入 线性 回归 模型 Linear- 
Regression 的 fit 方法 中 ， 最 终 得 到 时 长 与 成 绩 的 线性 回归 方程 。 


12.4 数据 可 视 化 


现在 我 们 来 到 数据 分 析 的 最 后 一 个 阶段 一 一 数据 可 视 化 。 在 前 面 的 工作 中 ， 我 们 已 经 
完成 了 数据 的 读 取 、 数 据 的 统计 分 析 ， 并 得 出 了 一 定 的 结论 ， 但 都 仅 限于 在 文字 层面 上 的 
理解 ， 未 能 用 直观 的 图 像 、 图 形 等 展示 形式 支撑 我 们 的 结论 ， 下 面 我 们 将 基于 Python 的 
matplotlib 模块 ， 绘 制 以 下 数据 图 形 : 

(1) 成 绩 排 名 柱状 图 。 

(2) 成 绩 分 布 直方 图 。 
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(3) 成 绩 分 布 箱 线 图 。 
(4) 成 绩 占 比 饼 图 。 


12.4.1 成 绩 排名 柱状 图 


在 学 生成 绩 表 12.1 中 ， 记 录 了 学 生 各 科 成 绩 的 信息 ， 现 在 我 们 在 此 基础 上 统计 综合 局 
绩 ， 并 以 柱状 图 的 形式 展示 其 排名 情况 ， 有 具体 程序 如 程序 12.11 所 示 。 
程序 12.11 绘制 成 绩 排 名 柱状 图 : 


import pandas as pd 

import matplotlib.pyplot as plt 

file_path = "report.csv" 

df raw = pd.read_csv(file_path, encoding='utf-8) 

df report = pd.DataFrame(df raw.iloc[:, 3:].sum(axis=1), columns=["Report"]) 

df aggr = pd.concat((df raw, df report), axis=1) 

df aggr sort= df aggr.sort_values(by=['Report], ascending=False) 

width= 0.5 

fig, ax = plt.subplots(O 

ax.bar(df aggr_sort["Name"], df aggr sort["Chinese"], width=width, label="Chinese") 

ax.bar(df aggr sort["Name"], df aggr_ sort["Math"], 

bottom=df aggr sort["Chinese"], width=width, label="Math") 

12: ax.bar(df aggr sort["Name"], df aggr sort["English"], 
bottom=df aggr_sort["Chinese"] + df aggr_sort["Math"], 
width=width, label="English") 

13: ax.set xlabel("Name") 

14: ax.set ylabel("Report") 

15: ax.legend0 

16: plt.showO 


分 析 : 

在 绘制 具体 图 形 前 ,需要 准备 好 显示 数据 ,在 matplotlib 模块 中 一 般 是 以 坐标 点 的 形式 ， 
即 全 部 数据 的 横 坐 标 ， 纵 坐标 分 别 作 为 一 个 列表 ， 传 入 绘图 函数 ， 如 果 要 绘制 学 生成 绩 排 
名 的 柱状 图 ， 则 需 事先 准备 成 绩 排 名 的 具体 数据 ， 因 此 我 们 首先 将 数据 导入 程序 ， 统 计 学 
生 综 合成 绩 ， 并 将 其 拼接 到 原始 数据 表 中 ,之 后 就 可 按照 综合 成 绩 实现 学 生 排 名 ， 如 程序 
的 第 5~7 行 所 示 。 在 得 到 排名 数据 后 ， 我 们 初始 化 绘图 板 ， 设置 学 生 姓 名 列表 为 x， 各 科 
成 绩 为 y, 依次 输入 绘图 函数 bar 中 ,最 后 通过 调用 matplotlib pyplot 的 show 方法 ， 显 示 排 


Om 


一 Oo" 
= 
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名 图 像 ， 如 图 12.1 所 示 。 
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图 12.1 成 绩 排名 柱状 图 
12.4.2 成绩 分 布 直方 图 


为 了 客观 了 解 成 绩 的 整体 情况 ， 我 们 需要 进一步 统计 成 绩 数据 ， 并 以 直方 图 的 形式 呈 
现 其 分 布 状况 ， 具 体 程序 如 程序 12.12 所 示 。 
程序 12.12 ”绘制 成 绩 分 布 直方 图 : 


import pandas as pd 

import matplotlib.pyplot as plt 

file_path = "report.csv" 

df raw = pd.read csv(file_path, encoding="utf-8") 

df report = pd.DataFrame(df raw.iloc[:, 3:].sum(axis=1), columns=["Report"]) 
num bins= 50 


ne 
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7: fig,ax= plt.subplots(O 

8: “plthist(df report["Report"], num bins, normed=1, alpha=1) 
9: ax.set xlabel("Report") 

10: ax.set ylabel("Count") 

11: plt.showO 


分 析 : 
我 们 在 统计 成 绩 的 过 程 中 ， 只 需要 计算 每 个 学 生 的 综合 成 绩 ， 之 后 将 综合 成 绩 作 为 一 


维 列表 传 入 绘图 函数 hist 中 ， 在 该 函数 内 部 会 自动 完成 统计 工作 ， 最 后 我 们 调用 
matplotlib.pyplot 的 show 方法 ， 显 示 成 绩 分 布 直方 图 ， 如 图 12.2 所 示 。 


200 220 240 260 
Report 


图 12.2 成 绩 分 布 直方 图 
12.4.3 ”成 绩 分 布 箱 线 图 


还 可 以 用 另 一 种 图 形 一 一 箱 线 图 来 显示 学 生成 绩 的 分 布 状况 ， 它 是 一 种 用 作 显 示 一 组 
数据 分 散 情况 资料 的 统计 图 ， 箱 线 图 可 以 让 我 们 直观 地 了 解数 据 的 中 位 数 、 异 常 值 、 分 布 
区 间 等 形状 信息 ， 下 面 我 们 先 将 图 形 绘制 出 来 ， 再 具体 介绍 其 基本 概念 ， 绘 图 程序 如 程序 
12.13 所 示 。 

程序 12.13 ”绘制 成 绩 分 布 箱 线 图 : 

1: importpandas as pd 

2: ， Import matplotlib.pyplot as plt 

3: file path = "report.csv" 
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4: dfraw=pdread_csv(file path, encoding=utf-8) 

5: df report= pd.DataFrame(df raw.iloc[:, 3:].sum(axis=1), columns=["Report"]) 
6: fig,ax=plt.subplots(O 

7: plt.boxplot(df report["Report"]) 

8: ax.set xticklabels(["Report"]) 
9: ax.set ylabel("Count") 
10: pltshowO 


分 析 : 

与 绘制 直方 图 的 过 程 类 似 ， 我 们 在 统计 完 学 生 的 综合 成 绩 后 ， 调 用 绘图 函数 boxplot 
将 综合 成 绩 数据 作为 实 参 传 入 , 并 通过 matplotlib pyplot 的 show 方法 显示 成 绩 分 布 箱 线 图 ， 
如 图 12.3 所 示 。 其 中 ， 箱 线 图 中 引入 了 统计 学 的 四 分 位 数 的 概念 ， 所 谓 四 分 位 数 ， 就 是 把 
组 中 所 有 数据 由 小 到 大 排列 并 分 成 四 等 份 ， 处 于 三 个 分 割 点 位 置 的 数字 就 是 四 分 位 数 : 

(1) 第 一 四 分 位 数 (Q1 ) ， 又 称 为 “下 四 分 位 数 ”， 等 于 该 样本 中 所 有 数值 由 小 到 
大 排列 后 第 25% 的 数字 ， 如 图 12.3 中 的 矩形 的 底 边 边框 。 

(2) 第 二 四 分 位 数 (Q2) ， 又 称 为 “中 位 数 ”， 等 于 该 样本 中 所 有 数值 由 小 到 大 排 
列 后 第 50% 的 数字 ， 如 图 12.3 中 的 矩形 中 的 内 谋 线 段 。 

(3 ) 第 三 四 分 位 数 (Q3 ) ,又 称 为 “上 四 分 位 数 ”， 等 于 该 样本 中 所 有 数值 由 小 到 


大 排列 后 第 75% 的 数字 ， 如 图 12.3 中 的 矩形 的 顶 边 边框 。 
280F 


200 上 


160T 
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12.3 ”成 绩 分 布 箱 线 图 
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12.4.4 成 绩 占 比 饼 图 
在 上 述 图 形 实 例 中 ， 客 观 地 反映 了 学 生成 绩 的 排名 、 分 布 等 信息 ， 但 除 此 之 外 ， 我 们 


还 需要 清楚 地 了 解 每 个 区 间 的 成 绩 在 整个 成 绩 统计 中 的 占 比 ， 以 清晰 反映 与 比较 各 
绩 比 重 。 下 面 将 以 饼 图 的 形式 将 各 个 区 间 的 成 绩 数 据 占 比 直观 地 呈现 出 来 ， 具 体 程 


序 12.14 所 示 。 


程序 


0 


12.14 ”绘制 成 绩 占 比 饼 图 : 


from collections import defaultdict 

import math 

import pandas as pd 

import matplotlib.pyplot as plt 

file_path = "report.csv" 

df raw = pd.read _csv(file_path, encoding="utf-8") 
list_report = list(df raw.iloc[:, 3:].sum(axis=1)) 
num bins=5 

Teport_max = int(math.ceil(max(list_report))) 
report_min = int(math.floor(min(list_report))) 
span = int((report_max - report_min) /num_bins) 
threshold = [thred for thred in range(report_min, report_max, span)] 
threshold_interval = defaultdict(lambda: 0) 


list_interval = list(map(lambda v1, v2: (v1, v2), threshold[:-1], threshold[1:])) 


for item in list_report: 
for interval in list_interval: 
if interval[0] <= item < interval[1]: 
threshold_interval[interval] += 1 
break 
labels=[] 
counts=[] 
for label, count in threshold_interval.items(): 
labels.append(label) 
counts.append(count / len(list_report)) 
explode = (0.1, 0, 0, 0, 0) 
fig, ax = plt.subplots() 
plt.pie(counts, labels=labels, explode=explode, autopct="%1.1f96%") 
pltshow0 


坦 
党 
取 


时 ， 同 样 需要 准备 数据 ， 绘 图 函数 pie 接收 各 区 间 成 绩 的 比例 值 ， 


区 间 成 


此 我 
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们 需要 自己 划分 区 间 ， 并 为 各 区 间 成 绩 计数 ， 最 后 计算 各 区 间 计 数 在 成 绩 总 数 中 的 比重 ， 
如 程序 的 第 8 一 24 行 所 示 ， 我 们 首先 通过 成 绩 中 的 最 大 、 最 小 值 确定 区 间 跨 度 span， 进 而 
确定 每 个 区 间 的 开始 赋值 threshold ， 并 通过 map 函数 组 合 threshold 生成 区 间 集 合 
list_interval， 里 面 记 录 了 每 个 区 间 的 上 下 冰 值 ; 接着 我 们 遍历 成 绩 数据 表 list_report， 将 每 
个 成 绩 划 入 对 应 区 间 内 , 即 对 对 应 区 间 计 数 ,之 后 将 成 绩 区 间 与 对 应 的 计算 结果 放 入 labels、 
counts 列表 中 , 并 将 其 作为 实 参 传 入 pie 函数 中 , 最 后 通过 matplotlib.pyplot 的 show 方法 显 
示 成 绩 占 比 饼 图 ， 如 图 12.4 所 示 。 
(226.250) 


31.8% 


(154.178) 


(178.202) 
(202.226) 


(250,274) 


图 12.4 成 绩 占 比 饼 图 


12.5 总 结 


在 本 章 中 ， 首 先 通过 介绍 pandas 模块 的 各 种 数据 源 的 导入 、 导 出 方式 ， 学 习 了 基于 
Python 的 数据 读 取 与 转化 。 然 后 讲解 了 数据 分 析 的 过 程 ， 通 过 学 生成 绩 表 的 案例 回顾 了 统 
计 学 中 的 资料 描述 统计 量 、 协 方差 、 相 关系 数 与 线性 回归 分 析 等 ， 对 学 习 时 长 与 学 生成 绩 
等 维度 的 数据 进行 分 析 ， 建 立 两 者 的 关联 模型 发掘 学 习 过 程 中 的 一 般 规律 。 

数据 的 可 视 化 分 析 可 让 读者 快速 、 直 观 地 了 解数 据 特征 ， 我 们 学 习 了 基于 Python 的 
matplotlib 模块 的 常见 图 形 绘制 方式 ， 并 通过 绘制 图 形 进一步 熟悉 了 对 pandas、matplotlib 
及 numpy 等 模块 的 函数 调用 。 
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12.6 练 习 


(1) 什么 是 数据 分 析 ? 数据 分 析 常 用 的 理论 与 方法 又 有 哪些 ? 
(2) 参考 12.2 节 的 程序 12.2， 完 成 对 下 列 数据 的 导出 到 .csv 格式 文件 中 ， 请 完成 程序 
的 设计 并 写 出 其 程序 代码 。 
假设 有 高 三 某 班 各 科 平均 分 成 绩 如 下 


加 


要 求 : 生成 索引 和 表 头 。 
(3) 参考 12 章 中 的 程序 ， 将 以 下 数据 存 为 .xlsx 格式 的 Excel 表格 文件 ， 然 后 完成 下 
列 练习 : 


Student ID Name Hour Chinese “Math English 
1 1807022101 Stul 8 80 80 80 
2 1807022102 Stu2 10 78 90 94 
3 1807022103 Stu3 9 67 87 90 
4 1807022104 Stu4 6 76 78 98 
5 1807022105 Stu5 7 87 78 79 
6 1807022106 Stu6 8 86 77 89 
7 1807022107 Stu7 4 65 78 
8 1807022108 Stu8 6 90 92 pd 


@ 写 出 对 以 上 数据 的 Excel 表格 文件 的 导入 程序 。 

@ 将 Excel 文件 转 为 CSV 文件 ， 然 后 写 出 程序 分 析 学 生 每 天 的 学 习 用 时 与 本 次 综合 成 
@ 基 于 @ 题 的 CSV 文件 统计 综合 成 绩 ， 并 以 柱状 图 的 形式 展示 其 排名 情况 。 

@ 基 于 @ 题 的 CSV 文件 ， 编 写 程序 并 绘制 成 绩 排名 柱状 图 。 
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本 篇 将 介绍 人 工 智 能 的 概念 以 及 相关 基础 知识 。 考 虑 到 高 中 生 的 数学 基础 
和 各 个 区 域 、 各 个 学 校 的 教学 水 平 差异 ,我们 提供 了 机 器 学 习 初 步 、 自 然 语言 
处 理 、 语 音 识别 、 计 算 机 视觉 和 人 工 神 经 网 络 五 部 分 的 内 容 。 

每 部 分 的 内 容 力 图 说 清楚 概念 ， 讲 清楚 应 用 ， 实 现 一 个 案例 。 通 过 学 习 ， 
我 们 期 待 学 生 可 以 了 解 基础 知识 ， 懂 得 基础 原理 ， 实 践 一 个 案例 。 这 样 做 到 知 
行 合 一 ， 以 实践 带动 知识 的 理解 ， 将 现实 世界 的 实践 和 书本 的 知识 融合 起 来 。 
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通过 本 章 ， 我 们 将 充分 了 解 到 人 工 智能 的 一 些 基 本 概念 和 基本 内 容 。 本 章 将 要 学 习 : 
口 人 工 智能 定义 及 发 展 。 

口 高 中 阶段 为 什么 学 习 人 工 智能 。 

口 人 工 智能 的 分 支 。 

口 ”加速 回报 定律 。 

口 “人工 智能 与 伦理 。 

口 图 灵 测 试 。 

口 人 工 智能 与 机 器 人 。 


13.1 人 工人 智能 


什么 是 智能 ? 世界 上 所 有 的 东西 都 是 智能 的 吗 ? 假如 ， 世 界 万 物 都 是 智能 的 ， 屠 
我 们 怎么 意识 到 “智能 ”的 存在 ? 我 们 将 如 何 区 分 智能 和 非 智能 呢 ? 所 以 ， 在 介绍 人 
工 智能 之 前 ， 有 必要 先 给 出 “智能 ”的 定义 。“ 智 能 ”简单 来 说 是 让 机 器 有 “目的 性 ” 
地 “思考 ”。 

我 们 思考 一 下 ， 计 算 机 显示 器 屏幕 上 显示 的 内 容 有 目的 性 ， 那 么 计算 机 就 是 智能 的 吗 ? 
答案 肯定 不 是 啦 ! 因为 “目的 ”的 主体 是 智能 体 ， 计 算 机 显示 器 屏幕 上 显示 内 容 的 “目的 ” 
是 人 的 “目的 ”， 而 不 是 计算 机 的 “目的 ”。 所 以 ， 计 算 机 显示 器 屏幕 上 显示 内 容 是 人 的 知 
能 ， 而 不 能 说 计算 机 是 智能 的 。 这 就 表明 “智能 ”涉及 其 他 诸如 意识 、 自 我 、 思 维 等 。 婚 
然 已 经 懂得 了 “智能 ”的 含义 。 下 面 ， 我 们 来 看 看 什么 是 人 工 智能 。“ 人 工 ”一 词 比 较 好 
理解 。 “人工” 即 人 力 制造 的 ,或 者 说 人 们 自身 的 智能 程度 已 经 达到 可 以 创造 智能 的 地 步 。 


13.1.1 什么 是 人 工 智能 


人 工 智能 (Artificial Intelligence，AI) 是 一 门 综合 了 计算 机 科学 、 生 理学 、 哲 学 的 交 
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又 学 科 ， 是 让 生物 的 自然 智能 在 计算 机 上 得 以 实现 ， 重 在 模拟 人 的 思维 过 程 和 智能 行为 的 
学 科 ， 同 时 人 工 智能 在 计算 机 领域 内 越 来 越 受 关注 。 


13.1.2 ”强人 工 智能 与 弱 人 工 智能 


人 工 智能 分 为 强人 工 智能 和 弱 人 工 智 能 ， 它 们 是 用 来 评价 人 工 智 能 的 能 力 ， 不 是 判断 
人 工 智 能 有 无 作为 的 标准 ， 而 是 就 人 工 智 能 如 何 思考 来 明确 各 自 的 立场 。 

“强人 工 智 能 ”一 词 最 初 是 约翰 。 罗 杰 斯 。 希 尔 勒 〈 见 图 13.1) 提出 来 的 ， 其 定义 为 
“计算 机 不 仅 是 用 来 研究 人 的 思维 的 一 种 工具 ， 相 反 ， 只 要 运行 适当 的 程序 ， 计 算 机 本 身 
就 是 有 思维 的 ”。 但 是 ， 对 于 约翰 。 罗 杰 斯 。 和 希 尔 勒 本 人 ， 他 完全 不 相信 计算 机 真 的 可 以 
像 人 类 一 样 思 考 。 对 于 上 述 定 义 ， 只 是 他 认为 “强人 工 智 能 群体 ”是 这 样 想 的 ， 计 算 机 本 
身 不 可 能 具有 自己 的 思维 。 现 在 ，“ 强 人 工 智 能 ” 指 的 是 机 器 可 以 根据 情况 对 事物 进行 推 
理 并 且 能 有 效 地 解决 问题 ， 这 样 的 机 器 可 以 被 认为 是 有 知觉 ， 有 自我 意识 的 ， 并 且 机 器 能 
独立 解决 问题 ， 找 到 最 优 方案 。 强 人 工 智 能 可 以 分 为 两 类 : 类 人 的 人 工 智能 和 非 类 人 的 人 
[智能 。 前 者 指 的 是 机 器 的 思维 和 推理 就 像 人 一 样 ， 后 者 指 的 是 机 器 产生 了 和 人 完全 不 一 
样 的 认 知 ， 有 和 人 类 完全 不 一 样 的 推理 方式 。 


图 13.1 约翰。 罗杰斯 。 希 尔 勤 
弱 人 工 智 能 坚持 认为 人 类 不 可 能 制造 出 有 自己 的 思维 并 且 能 真正 地 推理 和 解决 问题 的 
智能 机 器 。 这 些 机 器 仅仅 是 看 起 来 智能 ， 但 并 不 是 真正 的 智能 ， 更 不 会 有 自我 意识 ， 目 前 
的 主流 思想 也 集中 在 弱 人 工 智能 上 。 
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13.1.3 人工 智能 的 发 展 史 


1942 年 美国 科幻 巨匠 阿 西 莫 夫 提出 “机 器 人 三 定律 ”， 该 定律 为 后 代 创作 提供 了 巨 
大 的 指导 意义 。1956 年 夏天 ， 美 国 达 特 茅 斯 学 院 举 办 的 达 特 茅 斯 会 议 ( 见 图 13.2) ， 是 
历史 上 第 一 次 人 工 智 能 研讨 会 ， 人 工 智能 首次 在 会 议 上 被 提出 来 。 这 次 会 议 也 被 认为 是 
人 工 智 能 诞生 的 标志 。 在 会 上 ， 麦 卡 锡 提 出 了 “人 工 智能 ”概念 ， 纽 厄 尔 和 西蒙 则 展示 
了 编写 的 逻辑 理论 机 器 。 


图 13.2 达 特 茅 斯 会 议 


1942 年 ， 阿 西贡 夫 在 他 的 小 说 《我 ， 机 器 人 》 中 ， 提 出 “机 器 人 三 定律 ”: 

(1) 机 器 人 必须 不 危害 人 类 ， 也 不 允许 看 到 他 人 受伤 害 而 袖手旁观 。 

(2) 机 器 人 必须 绝对 服从 于 人 类 ， 除 非 这 种 服从 有 害 于 人 类 。 

(3) 机 器 人 必须 保护 自身 不 受伤 害 ， 除 非 为 了 保护 人 类 或 者 是 人 类 命令 它 做 出 牺牲 。 

1968 年 一 1972 年 间 ， 美 国 斯 坦 福 国际 研究 所 研制 了 移动 式 机 器 人 Shakey， 这 是 首 台 
采用 了 人 工 智 能 的 移动 机 器 人 。 它 装备 了 电视 摄像 机 、 三 角 测 距 仪 、 碰 撞 传感器 等 ， 并 通 
过 无 线 通信 系统 由 两 台 计 算 机 控制 ， 能 进行 简单 的 自主 导航 。 

1970 年 ， 维 诺 格拉 德 设计 研发 的 SHRDLU 系统 ， 可 以 正确 理解 语言 。1976 年 美国 斯 
坦 福 大 学 研发 的 MYCIN 专家 系统 可 以 诊断 传染 性 血液 病 患 者 。1981 年 , 日 本 经 济 产业 省 
拨款 8.5 亿美 元 用 以 研发 第 五 代 计算 机 项 目 ， 人 工 智 能 计算 机 登场 。 随 后 英国 、 美 国 也 开 
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始 向 计算 机 领域 的 研究 提供 大 量 资 金 。 在 1987 年 一 1993 年 ， 人 工 智 能 由 于 被 认为 并 非 下 
一 个 发 展 方向 ， 拨 款 受 到 了 限制 。 在 失去 资金 支持 后 ， 人 工 智能 遇 到 了 低谷 ， 但 随后 不 久 
人 工 智能 开始 逆 袭 。1997 年 ， 比 尔 。 盖 茨 耗 时 七 年 ， 花 费 高 达 9700 万 美元 的 豪宅 建成 

这 是 第 一 座 智能 家 居 〈 见 图 13.3) 。 


图 13.3 ”比尔 。 盖 茨 的 豪宅 

比尔 。 盖 茨 的 这 座 豪 宅 完全 按照 智能 住宅 的 概念 建造 ， 不 仅 具 备 高 速 上 网 的 专线 ， 所 
有 的 门窗 、 灯 有 具 、 电 器 、 池 塘 都 能 够 通过 计算 机 控制 ， 所 有 设备 都 能 自动 调整 ， 就 连 家 中 
的 一 棵 百年 老 树 都 有 自己 的 传感器 。 不 仅 如 此 ， 家 中 还 有 一 个 高 性 能 的 服务 器 作为 管理 整 
个 系统 的 后 台 。 由 于 通信 的 自由 化 与 高 层次 化 ， 人 类 对 工作 环境 的 安全 性 、 舒 适 性 、 效 率 
性 要 求 也 大 大 提高 ， 使 家 居 智 能 化 的 需求 变 得 格外 重要 。 此 外 在 科学 技术 方面 ， 由 于 计算 
机 控制 技术 和 电子 信息 通信 技术 的 发 展 ， 也 促成 了 智能 家 居 的 诞生 。 

2014 年 5 月 28 日 ， 在 Code Conference 大 会 上 ， 谷 歌 〈Google) 推出 了 自己 的 新 产 
无 人 驾驶 汽车 〈 见 图 13.4) 。 与 一 般 的 汽车 不 同 ， 谷 歌 无 人 轰 驶 汽车 没有 方向 盘 和 
刹车 。 这 就 意味 着 传统 汽车 的 油门 、 方 向 盘 、 和 刹车 等 必 不 可 少 的 配件 ， 在 无 人 驾驶 汽车 上 
己 经 全 部 看 不 到 了 ， 它 主要 依靠 车 内 的 以 计算 机 系统 为 主 的 智能 驾驶 仪 来 实现 无 人 驾驶 。 
并 且 谷 歌 也 希望 无 人 驾驶 汽车 可 以 适应 不 同 的 场景 ， 用 户 只 需 告诉 车 子 他 们 的 目的 地 ， 并 
且 按 一 下 按钮 ， 车 子 就 会 自动 带 他 们 去 那里 。 


第 13 章 ”人工 智能 导论 。223 。 


图 13.4 无 人 驾驶 汽车 


13.2 为 什么 学 习 人 工 智 能 


就 人 工 智能 的 本 质 而 言 ， 它 是 对 人 的 思维 过 程 的 模拟 ， 这 主要 包括 两 个 方面 。 一 是 结 
构 模 拟 ， 仿 照 人 脑 的 结构 机 制 ， 制 造 出 “类 人 脑 ” 的 机 器 ， 二 是 功能 模拟 ， 和 暂时 撤 开 人 脑 
的 内 部 结构 ， 而 从 其 功能 过 程 进行 模拟 。2017 年 7 月 21 日 ， 国 务 院 新 闻 办 公 室 举行 国务 
院 政策 例 行 吹风 会 ， 重 点 介绍 《新 一 代 人 工 智能 发 展 规划 》。 科 学 技术 部 副 部 长 李 萌 指出 ， 
新 一 代 人 工 智 能 具有 五 大 特点 ， 一 是 从 人 工 知识 表达 到 大 数据 驱动 的 知识 学 习 技术 ; 二 是 
从 分 类 型 处 理 的 多 媒体 数据 转向 跨 媒体 的 认 知 、 学 习 、 推 理 ， 这 里 讲 的 “媒体 ”不 是 新 闻 
媒体 ， 而 是 界面 或 者 环境 ; 三 是 从 追求 智能 机 器 到 高 水 平 的 人 机 、 脑 机 相互 协同 和 融合 ; 
四 是 从 聚焦 个 体 智 能 到 基于 互联 网 和 大 数据 的 群体 智能 ， 它 可 以 把 很 多 人 的 智能 集聚 融合 
起 来 变 成 群体 智能 ， 五 是 从 拟人 化 的 机 器 人 转向 更 加 广阔 的 智能 自主 系统 ， 如 智能 工厂 、 
智能 无 人 机 系统 等 。 

现在 你 一 定 很 想 问 ， 作 为 高 中 生 的 我 们 ， 为 什么 要 学 习 人 工 智 能 ? 现在 学 习 人 工 智能 
会 不 会 太 早 ? 其 实 , 在 2018 年 1 月 16 日 ,教育 部 已 经 正式 将 人 工 智能 、 大 数据 、 物 联网 、 
算法 等 加 入 了 “新 课 标 ”的 改革 中 。 由 于 我 国人 工 智 能 人 才 缺 口 大 ， 而 高 中 阶段 精力 充沛 ， 
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具备 了 初步 的 数学 基础 ， 是 学 习 人 工 智能 的 最 好 阶段 。 这 时 学 习 人 工 智能 ， 不 仅 能 为 自身 的 
未 来 求学 黄 定 基础 ， 而 且 也 为 国家 的 人 工 智能 发 展 和 应 用 建立 了 雄厚 的 人 才 储 备 源 。 人 工 智 
能 已 经 走 进 高 中 信息 技术 的 新 课 标 ， 可 以 在 大 学 之 前 就 提前 培养 人 工 智能 人 才 。 高 中 阶段 所 
学 的 知识 对 学 生 的 终身 发 展 起 到 重要 的 作用 , 知识 型 内 容 与 基本 概念 、 基 本 原理 的 相关 性 高 ， 
时 效 性 也 长 久 ， 对 学 生 终 身 学 习 和 发 展 的 价值 也 很 大 。 牛 津 大 学 的 卡尔 。 弗 瑞 与 迈克 尔 。 奥 
斯 本 发 表 的 未 来 就 业 报 告 指出 : 未 来 几 年 ， 有 47% 的 工作 有 很 大 几率 被 人 工 智 能 取代 ， 而 人 
工 智能 及 其 编程 的 学 习 可 以 让 孩子 从 容 面 对 未 来 职业 ， 更 好 地 成 就 个 人 发 展 和 社会 发 展 。 


13.3 ”人工 智能 的 种 类 


人 工 智能 主要 分 为 两 个 种 类 ， 一 是 运用 符号 思考 的 人 工 智能 ， 二 是 运用 神经 网 络 思 考 
的 人 工 智 能 。 

运用 符号 思考 的 人 工 智 能 即 符号 主义 (Symbolism) ， 是 一 种 基于 逻辑 推理 的 智能 模拟 
方法 ， 又 称 为 逻辑 主义 (Logicism) 。 其 原理 主要 为 根据 符号 和 规则 来 创造 智能 。 一 直 以 
来 ， 处 在 人 工 智能 主导 地 位 的 便 是 符号 主义 。 纽 威 尔 和 西蒙 提出 的 “物理 符号 系统 假设 ” 
为 符号 主义 的 实现 打下 了 基础 。 该 学 派 认为 : 人 类 认 知 和 思维 的 基本 单元 是 符号 ， 而 认 知 
过 程 就 是 在 符号 表示 上 的 一 种 运算 。 它 把 人 看 成 一 个 物理 符号 系统 ， 同 时 计算 机 也 是 一 个 
物理 符号 系统 。 此 时 ， 我 们 就 可 以 用 计算 机 来 模拟 人 的 认 知 和 行为 。 运 用 符号 思考 的 人 工 
智能 实质 在 于 模拟 人 的 左 脑 逻 辑 思 维 ， 通 过 研究 人 类 认 知 的 原理 ， 进 而 用 符号 来 模拟 人 类 
的 认 知 过 程 。 

符号 主义 学 派 认为 人 工 智能 源 于 数学 逻辑 ， 并 且 认 为 功能 模拟 方法 才 应 是 人 工 智 能 的 
研究 方法 。 通 过 分 析 人 类 认 知 系统 的 功能 ， 用 计算 机 模拟 这 些 功 能 ， 进 而 实现 人 工 智能 。 
然而 ， 符 号 主义 主张 用 逻辑 方法 建立 人 工 智能 体系 时 ， 却 遇 到 了 “常识 性 ”问题 的 障碍 ， 
对 于 那些 不 确定 的 事物 的 知识 表示 和 难以 表达 的 问题 ， 符 号 主义 不 能 提供 好 的 解决 办 法 ， 
因此 ， 受 到 其 他 学 派 的 批评 与 否定 。 

运用 神经 网 络 思考 的 人 工 智能 即 人 工 神经 网 络 ， 是 一 种 针对 人 脑 神经 元 网 络 进行 抽象 
建立 的 简单 模型 ， 它 按照 不 同 的 链接 方式 进而 组 成 不 同 的 网 络 〈 见 图 13.5) 。 神 经 网 络 是 
一 种 运算 模型 ， 由 大 量 的 神经 元 相互 链接 而 成 。 在 最 近 的 十 几 年 来 ， 人工 神经 网 络 取得 了 
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非常 大 的 进步 。 


图 13.5 神经 突 触 


人 工 神 经 网 络 的 基本 特点 如 下 。 

(1) 具有 自学 习 能 力 : 例如 ， 图 像 识别 ， 先 把 不 同 的 图 像样 板 和 素材 输入 到 人 工 神 经 
网 络 ， 此 时 网 络 就 会 通过 自己 的 自学 能 力 ， 渐 渐 学 会 分 析 识 别 相似 的 图 片 。 这 种 自学 能 力 
对 于 预测 功能 有 重大 的 帮助 。 预 测 人 工 神 经 网 络 也 为 经 济 、 市 场 、 效 益 等 方面 ， 提 供 远大 
的 前 景 。 

(2) 联想 存储 功能 : 记忆 并 不 像 计算 机 里 的 存储 器 ， 记 忆 只 是 训练 后 ， 各 个 神经 网 络 
的 权 值 和 偏 置 。 记 忆 数 据 已 经 固化 到 一 个 具有 某 功能 的 神经 网 络 结构 中 。 这 整个 被 训练 好 
的 神经 网 络 ， 就 是 记忆 。 人 脑 记忆 不 能 离开 神经 网 络 单独 存在 。 要 移植 记忆 ， 就 要 重 构 神 
经 网 络 ， 不 像 下 载 到 计算 机 硬盘 那么 简单 ， 它 是 功能 性 的 。 例 如 ， 一 个 叫 小 李 的 人 的 手机 
号 码 。 小 李 一 1 一 3 一 5 一 4 一 6 一 4 一 2 一 2 一 1 一 9 一 1， 小 李 是 第 一 个 神经 元 的 输入 ， 然 后 输出 
是 1，1 是 下 一 个 神经 元 的 输入 ， 然 后 3 是 输出 ， 以 此 类 推 ， 如 此 便 形 成 了 联想 链 。 

(3) 快速 寻找 优化 解 的 能 力 : 当 我 们 在 找 一 个 复杂 问题 的 解决 方案 时 ， 总 会 需要 大 量 
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的 计算 ， 为 此 ， 设 计 一 个 针对 特定 问题 的 人 工 神 经 网 络 ， 能 更 加 有 效 地 提高 运算 能 力 ， 更 
快 地 找到 问题 的 最 优 解决 方案 。 

虽然 人 工 神经 网 络 的 理论 和 算法 还 需要 进一步 的 改进 和 完善 。 但 是 由 于 它 的 学 习 规则 
简单 ， 可 以 轻松 地 在 计算 机 上 实现 ， 并 且 有 强大 的 记忆 能 力 和 自学 能 力 ， 使 其 在 市 场 上 得 
到 了 更 多 的 应 用 。 


13.4 人 工 智 能 的 分 支 


通过 人 工 智能 ， 可 以 学 习 到 多 个 领域 的 知识 。 人 工 智 能 的 研究 方向 已 经 被 分 成 几 个 子 
领域 ， 以 下 列 出 人 工 智能 中 重要 的 一 些 话题 。 


13.4.1 机 器 学 习 


机 器 学 习 ， 即 机 器 本 身 在 学 习 ， 是 在 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行 为 ， 使 
它 学 习 到 新 的 知识 和 技能 。 机 器 通过 已 有 的 知识 结构 ， 将 它们 重新 组 织 ， 进 而 不 断 完善 自 
身 的 性 能 。 机 器 学 习 的 应 用 十 分 广泛 ， 例 如 ， 大 家 熟知 的 搜索 引擎 、 医 学 诊断 、 语 音 和 手 
写 识 别 、 战 略 游戏 等 领域 。 机 器 学 习 现 在 也 成 为 数据 分 析 领 域 的 一 个 热点 ， 在 大 多 数 人 的 
平时 工作 中 都 或 多 或 少 涉及 机 器 学 习 算法 。 现 在 我 们 来 简单 介绍 下 机 器 学 习 的 3 种 学 习 方 
式 : 监督 学 习 、 无 监督 学 习 和 半 监 督学 习 。 

(1) 监督 学 习 : 指 的 是 建立 基于 标签 训练 数据 的 机 器 学 习 模 型 的 过 程 ， 将 某 次 输入 应 
该 采取 的 行动 作为 指令 数据 。 举 一 个 例子 来 说 明 ， 在 虚拟 空间 内 ， 制 作 一 只 机 器 狗 ， 我 们 
对 狗 发 出 “站 ”“ 转 圈 ”“ 坐 ”的 指令 。 虚 拟 的 机 器 狗 最 初 不 知道 每 个 指令 应 该 对 应 什么 
动作 ， 它 就 会 任意 地 做 动作 。 但 当 它 做 完 动作 之 后 受到 鼓励 时 ， 就 会 在 下 次 遇 到 这 个 指令 
时 ， 做 同样 的 动作 。 如 果 受 到 了 训斥 ， 就 不 会 做 这 样 的 动作 。 经 过 这 样 循环 往复 的 训练 ， 
机 器 狗 就 会 记 住 什么 样 的 指令 对 应 什么 动作 。 

(2) 无 监督 学 习 : 无 监督 学 习 是 不 需要 标签 训练 数据 的 机 器 学 习 。2016 年 谷歌 旗下 
的 DeepMind 公司 的 戴 维 。 西 尔 弗 、 艾 佳 。 黄 和 戴 密 。 哈 萨 比 斯 与 他 们 的 团队 开发 的 
AlphaGo， 就 是 通过 无 监督 学 习 实现 的 。AlphaGo 是 一 款 围棋 的 人 工 智能 程序 ， 通 过 自我 
对 战 的 无 监督 学 习 ， 从 开始 的 什么 都 不 会 ， 在 短 短 三 天 内 ， 就 成 为 顶级 的 高 手 ， 打 败 了 许 
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多 围棋 冠军 。 通 常 来 讲 ， 监 督学 习 需要 很 多 的 数据 ， 而 无 监督 学 习 主要 需要 好 的 学 习 环境 。 

(3) 半 监 督学 习 : 是 监督 学 习 与 无 监督 学 习 相 结合 的 一 种 学 习 方式 。 意 在 利用 少量 的 
标签 进行 训练 和 分 类 学 习 。 这 种 学 习 方 式 可 以 用 来 进行 预测 ， 通 过 应 用 于 分 类 和 递归 等 地 
方 ， 对 未 标识 的 数据 进行 建 模 ， 在 此 基础 上 对 标识 的 数据 进行 预测 。 


13.4.2 ”模式 识别 


模式 识别 是 一 门 交叉 学 科 ， 源 于 自动 控制 与 计算 机 技术 。 同 时 又 和 人 工 生命 、 机 电 等 
学 科 紧密 联系 。 模 式 识别 是 对 事物 或 现象 的 各 种 信息 进行 处 理 分 析 ， 同 时 对 这 些 事物 或 者 
现象 进行 分 析 解 释 的 过 程 。 例 如 ， 汽 车 车 牌号 的 辨识 涉及 图 像 处 理 分 析 等 技术 。 简 言 之 ， 
模式 识别 能 让 计算 机 认识 到 周围 的 事物 ， 使 人 类 与 计算 机 能 更 自然 方便 地 沟通 。 模 式 识别 
包括 文字 识别 、 语 音 识别 、 自 然 语言 理解 、 计 算 机 图 形 识 别 等 。 下 面 我 们 来 重点 了 解 一 下 
文字 识别 和 语音 识别 。 

(1) 文字 识别 : 一 般 包括 信息 的 采集 、 分 析 、 处 理 及 分 类 判断 等 过 程 ， 是 一 种 计算 机 
自动 识别 字符 的 技术 ， 也 是 模式 识别 的 一 个 重要 的 应 用 领域 。 汉 字 已 经 承载 了 数 千 年 的 历 
史 ， 同 时 也 是 使 用 人 数 最 多 的 文字 。 我 们 在 日 常 的 生产 和 生活 中 ， 要 处 理 大 量 的 文本 、 图 
标 ， 这 些 事情 琐碎 又 麻烦 。 为 了 减轻 人 们 的 劳动 ， 将 文字 方便 、 快 速 地 输入 到 计算 机 中 ， 
已 经 成 为 现 如 今 一 个 重要 的 问题 。 目 前 ， 汉 字 的 输入 主要 分 为 人 工 键 盘 输 入 和 机 器 自动 识 
别 输入 两 种 。 人 工 键 盘 输入 是 最 常见 的 一 种 ， 速 度 慢 而 且 劳 动 强度 也 很 大 。 机 器 自动 识别 
输入 又 分 为 汉字 识别 输入 和 语音 识别 输入 。 从 技术 角度 来 看 ， 识 别 手写 体 的 难度 高 于 印刷 
体 ， 在 识别 手写 体 时 ， 脱 机 手写 体 的 难度 远 超 于 联机 手写 体 识别 。 

(2) 语音 识别 : 在 近 二 十 多 年 来 ， 语 音 识 别 取 得 了 非常 大 的 进步 ， 已 经 从 实验 室 
走 入 了 市 场 。 其 目标 是 将 人 类 语音 中 的 词汇 转 成 计算 机 可 读 的 输入 。 语音 识 别 技术 主要 
包括 语音 拨号 、 语 音 文档 检索 、 听 写 数 据 的 录入 、 语 音 导 航 等 。 所 涉及 的 领域 有 信和 号 处 
理 、 发 声 机 理 和 听觉 机 理 等 。 近 年 来 ， 语 音 识 别 在 移动 端的 应 用 也 非常 火热 ， 许 多 公司 
都 对 其 投入 了 大 量 的 人 力 和 物力 。 例如， 国内 的 科大 讯 飞 语音 助手 、 百 度 语音 等 系统 都 
采用 了 最 新 的 语音 识别 技术 。 语音 识别 也 会 日 益 成 为 人 们 日 常生 活 和 工作 中 特别 重要 的 
技术 。 

模式 识别 的 研究 主要 集中 在 两 个 方面 ， 一 是 在 特定 的 条 件 下 ， 怎 样 让 计算 机 实现 模式 
识别 的 理论 和 方法 ， 二 是 研究 人 类 和 其 他 一 些 生物 体 是 怎样 感知 对 象 的 ， 这 一 点 属于 认 知 
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科学 的 范围 ， 是 生理 学 家 、 生 物 学 家 和 神经 学 科学 者 的 研究 内 容 。 而 第 一 点 主要 是 数学 家 、 
计算 机 科学 研究 人 员 研究 的 内 容 ， 并 且 他 们 经 过 几 十 年 的 不 懈 努 力 ， 已 经 取得 了 系统 的 研 
究 成果 。 模 式 识别 可 用 于 文字 和 语音 识别 、 遥 感 和 医学 诊断 等 方面 。 


13.4.3 ”知识 表示 


知识 表示 是 人 工 智能 最 基础 的 概念 ， 是 指 对 人 工 智能 的 知识 形态 的 表述 。 知 识 表 示 把 
知识 客体 中 的 知识 因子 与 知识 相关 联 ， 有 利于 人 们 的 识别 和 理解 。 知 识 表示 是 知识 组 织 的 
前 提 和 基础 ， 任 何 知识 组 织 方法 都 是 要 建立 在 知识 表示 的 基础 上 。 谓 词 逻 辑 是 一 种 比较 常 
见 的 知识 表示 方法 。 在 谓词 逻辑 中 ,命题 是 用 谓词 表示 的 。 谓 词 的 一 般 形式 是 
p(X,X,…,%,)， 其 中 忆 是 谓词 名 称 ，X,X，…,%, 是 个 体 。 举 一 个 例子 ， 让 我 们 更 好 地 理 
解 知识 表示 中 的 谓词 逻辑 。 

假设 有 这 样 一 个 知识 需要 表示 : 小 赵 是 音乐 系 的 学 生 ， 但 他 不 喜欢 唱歌 。 我 们 用 一 阶 
谓词 逻辑 来 表示 它 就 需要 采用 如 下 的 步骤 。 

首先 ， 定 义 谓词 如 下 : 

Music(x) :x 是 音乐 系 的 学 生 。 

Like(x,y):X 喜欢 y。 

那么 ， 我 们 可 以 使 用 谓词 公式 表示 如 下 : 

Music ( xiaozhao) A —Like(xiaozhao, sing) 

1. 启发 式 算法 

启发 式 算 法 是 一 个 由 直观 或 经 验 而 构造 的 算法 ， 指 在 可 以 接受 的 花费 下 得 出 待 解决 问 
题 的 每 一 个 可 行 解 ， 这 个 可 行 解 与 最 优 解 的 偏离 程度 一 般 情况 下 是 不 能 被 预计 的 。 简 单 来 
说 ， 启 发 式 算法 在 解决 问题 时 ， 利 用 过 去 的 经 验 ， 选 择 确定 是 有 效 的 方法 ， 而 不 是 以 确定 
的 步骤 去 找 答案 。 它 最 大 的 优点 是 在 有 限 的 搜索 空间 内 ， 很 大 程度 上 减少 了 尝试 的 次 数 ， 
缺点 是 这 种 方法 有 失败 的 可 能 

2. 遗传 算法 

遗传 算法 是 模拟 达尔 文 进化 论 的 人 工 智能 ， 借 鉴 生物 界 的 进化 规律 〈 适 者 生存 ， 优 胜 
劣 汰 的 遗传 机 制 ) 演 化 而 来 的 随机 化 搜索 方法 。 它 有 对 结构 对 象 进行 操 作 的 特点 ， 很 好 的 
全 局 寻找 最 优 解 的 能 力 ， 能 够 自动 优化 搜索 空间 ， 并 且 不 依赖 梯度 信息 或 其 他 辅助 知识 。 
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遗传 算法 被 广泛 地 应 用 于 机 器 学 习 、 信 和 号 处 理 、 组 合 优化 等 领域 ， 是 现代 关于 智能 计算 的 
一 种 关键 技术 。 

在 20 世纪 90 年 代 ， 遗 传 算法 达到 兴盛 时 期 ， 在 理论 研究 和 应 用 领域 都 十 分 受 欢迎 。 
渐渐 由 于 应 用 领域 的 扩展 ， 遗 传 算法 有 了 五 个 引 人 注 目的 新 方向 ， 此 处 只 需 大 概 了 解 。 一 
是 基于 遗传 算法 的 机 器 学 习 ， 二 是 应 用 于 神经 网 络 的 遗传 算法 ,三 是 并 行 处 理 的 遗传 算法 ， 
四 是 遗传 算法 与 人 工 生命 的 研究 ， 五 是 遗传 算法 与 进化 规划 。 

遗传 算法 的 性 质 ， 已 被 人 们 广泛 地 应 用 于 机 器 学 习 、 信 号 处 理 、 组 合 优化 、 自 适应 控 
制 和 人 工 生命 等 领域 。 它 是 现代 有 关 智 能 计算 中 的 关键 技术 。 遗 传 算法 也 是 计算 机 科学 人 
工 智 能 领域 中 用 于 解决 最 优化 的 一 种 搜索 启发 式 算法 ， 是 进化 算法 的 一 种 。 这 种 启发 式 算 
法 通常 用 来 生成 有 用 的 解决 方案 来 优化 和 搜索 问题 。 

3. 深度 学 习 

深度 学 习 是 一 种 新 兴 的 “ 超 能 力 ”， 可 以 用 于 搭建 自己 的 人 工 智 能 系统 。 深 度 学 习 源 
于 神经 网 络 ， 它 通过 组 合 底层 特征 形成 抽象 的 高 层 表 示 属 性 特征 ， 用 以 发 现 数据 的 分 布 式 
特征 表示 。 深 度 学 习 通 过 模仿 人 脑 的 机 制 来 解释 数据 ， 应 用 于 语音 识别 、 自 然 语言 处 理 、 
计算 机 视觉 等 其 他 商业 领域 ， 深 度 学 习 属 于 无 监督 学 习 的 一 种 。 下 面 简单 了 解 深度 学 习 的 
- 些 应 用 程序 。 

盲人 看 图 片 : 这 是 Facebook 的 一 项 推 新 技术 ， 该 技术 利用 人 工 智能 的 深度 学 习 ， 让 有 
视力 障碍 的 人 也 能 看 照片 。 此 项 技术 通过 深度 学 习 ， 在 盲人 阅读 新 闻 时 会 自动 生成 相关 图 
片 的 文字 版 ,同时 将 文字 以 语音 的 形式 输出 ， 让 盲人 和 视力 障碍 人 士 也 能 在 Facebook 上 阅 
读 新 闻 和 看 图 片 。 

语音 实时 翻译 : 被 誉 为 “全 球 十 大 突破 性 技术 ”。 随 着 国际 文化 的 飞速 发 展 ， 人 们 
对 翻译 有 更 高 的 要 求 ， 语 音 实时 翻译 打破 了 各 国语 言 不 通 的 障碍 ， 使 语言 沟通 的 实时 性 
不 再 是 问题 。 而 这 一 项 技术 最 大 的 意义 在 于 ， 使 人 们 可 以 无 障碍 地 进行 信息 交流 的 愿望 
得 以 实现 。 

自动 回复 电子 邮件 : 2015 年 ， 谷 歌 推出 有 别 于 过 去 的 邮箱 “自动 回复 ”功能 ， 这 一 
项 技术 通过 深度 学 习 得 以 实现 。 该 功能 实现 了 系统 在 收 到 邮件 后 ， 判 断 该 邮件 是 否 需 要 
及 时 回复 ， 同 时 可 以 提出 三 个 合适 的 候选 答案 ， 用 户 可 以 直接 单 击 发 送 ， 也 可 以 编辑 之 
后 再 进行 发 送 。 当 用 户 手动 回复 之 后 ， 该 系统 会 自动 记录 类 似 问 题 的 最 优 回复 ， 以 备 下 
次 使 用 。 
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13.5 加速 回报 定律 


加 速 回报 定律 是 信息 科技 中 的 基本 理论 ， 它 遵循 可 预见 的 指数 级 增长 规律 ， 反 对 传统 
的 “无 法 预知 未 来 ”的 观念 。 虽 然 仍 有 许多 事情 都 是 未 知 数 ， 但 事实 证 明 ， 基 础 性 价 比 及 
信息 承载 量 却 确 确 实 实 可 以 预见 。 更 让 人 吃惊 的 是 ， 这 些 变化 并 不 受 战争 或 和 平 、 繁 荣 或 
萧条 等 因素 的 干扰 。 

想象 一 下 ， 假 如 现在 是 2045 年 ， 你 坐 着 时 光 机 回 到 了 1790 年 ， 那 个 时 代 还 没有 电 ， 
交通 靠 步行 或 者 马车 。 人 们 之 间 的 来 往 需要 靠 书 信 ， 从 北京 到 四 川 如 果 是 策 马 奔 腾 的 话 要 
50 多 个 小 时 ， 如 果 使 用 马车 或 者 步行 ， 可 能 长 达 数 日 或 者 几 十 日 。 你 在 那个 时 代 邀 请 了 一 位 
叫 小 杨 的 朋友 来 2045 年 玩 ， 让 他 感受 一 下 “未 来 ”。 你 带 着 他 像 大 鹏 一 样 在 天 空中 釉 翔 ， 在 
深海 中 畅游 ， 与 大 西洋 另 一 头 的 人 在 聊天 。 你 还 没有 跟 他 解释 过 网 络 、 机 器 人 、 核 武器 是 什么 
东西 。 这 时 候 小 杨 会 是 什么 体验 ? 应 该 可 以 用 目瞪口呆 来 形容 了 。 现 在， 如 果 小 杨 回 到 了 1790 
年 ， 他 觉得 自己 的 经 历 很 回 ， 也 想 体 验 一 下 把 别人 吓 到 的 感觉 ， 于 是 他 也 回 到 了 相差 255 年 前 
的 1535 年 ， 邀 请 生活 在 1535 年 的 小 宕 来 1790 年 玩 ， 小 寇 可 能 会 对 255 年 后 的 生活 感到 震惊 ， 
但 至 少 不 会 目瞪口呆 , 因为 1790 年 和 1535 年 的 生活 相差 并 不 是 很 大 , 如 果 小 杨 想 把 别人 吓 到 ， 
估计 要 回 到 公元 前 才能 满足 他 的 愿望 。 

这 样 讲 来 ， 你 是 否 理解 了 加 速 回 报 定律 了 呢 ? 那么 你 觉得 “2050 年 世界 会 变 得 面目 全 
非 ” 这 人 句 话 可 笑 吗 ? 人 类 的 发 展 如 图 13.6 所 示 。 


现在 发 展 速度 


时 间 
图 13.6 人 类 的 发 展 
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其 次 ， 你 可 能 听 过 “ 奇 点 ”或 者 “技术 奇 点 ”这 种 说 法 。 这 种 说 法 在 数学 上 用 来 描述 
类 似 渐进 的 情况 ， 这 种 情况 下 通常 的 规律 就 不 适用 了 。 这 种 说 法 同样 被 用 在 物理 上 来 描述 
无 限 小 的 高 密度 黑洞 ， 同 样 是 通常 的 规律 不 适用 的 情况 。Ray Kurzweil《〈 雷 “* 库 效 韦 尔 ) 则 
把 奇 点 定义 为 加 速 回报 定律 达到 了 极限 ， 技 术 进 步 以 近乎 无 限 的 速度 发 展 ， 而 奇 点 之 后 我 
们 将 在 一 个 完全 不 同 的 世界 生活 。 


13.6 人 工 智 能 与 伦理 


人 工 智能 要 重视 伦理 价值 。 人 们 对 人 工 智能 的 关注 ， 也 是 对 人 类 自身 的 关注 。 人 工 智 
能 技术 越 来 越发 过， 人 类 会 被 取代 吗 ? 或 者 说 人 类 会 成 为 人 工 智 能 的 奴隶 吗 ? 所 以 人 工 智 
能 与 伦理 问题 理应 得 到 广泛 的 重视 。 

虽然 人 工 智能 的 持续 进步 和 广泛 应 用 带 来 的 好 处 是 巨大 的 ， 但 是 ， 为 了 让 人 工 智 能 真 
正 有 益 于 人 类 社会 ， 伦 理 问 题 应 受到 更 多 关注 。 首 先 ， 就 是 隐私 问题 。 现 如 今 的 人 工 智 能 
系统 ， 基 本 都 是 对 大 数据 的 学 习 ， 此 时 需要 大 量 的 数据 。 一 方面 这 其 中 会 使 用 很 多 的 敏感 
数据 ， 这 些 数据 会 被 泄露 出 去 ， 将 对 个 人 的 隐私 产生 威胁 。 其 次 ， 关 于 人 类 道德 责任 方面 
的 问题 。 例 如 ， 如 果 自 动 驾驶 汽车 、 智 能 机 器 人 对 我 们 人 类 造成 了 人 身 伤害 ， 那 么 该 由 谁 
承担 这 个 后 果 ? 由 于 系统 是 自主 的 ， 开 发 者 很 难 预测 ， 意 外 事故 又 应 该 由 谁 来 承担 法 律 责 
任 。 最 后 就 是 机 器 人 的 权利 。 机 器 人 越 来 越 智能 化 ， 它 们 将 在 人 类 社会 中 扮演 什么 样 的 角 
色 ? 它们 在 法 律 上 是 什么 ? 自然 人 ? 法 人 ? 我 们 可 以 杀 死 它们 吗 ? 杀 死 它们 会 犯法 吗 ? 这 
些 问 题 都 是 非常 值得 深思 的 。 

所 以 ， 在 这 个 人 工 智 能 快速 发 展 的 时 代 ， 对 人 工 智 能 进行 伦理 测试 同样 重要 ， 包 括 道 
德 、 隐 私 、 正 义 、 有 益 性 、 安 全 、 责 任 等 。 


13.7 图 灵 测 试 


图 灵 测 试 是 测试 人 在 与 被 测试 者 (一 个 人 和 一 台 机 器 〉 隔 开 的 情况 下 ， 通 过 一 些 装置 
〈 如 键盘 ) 向 被 测试 者 随意 提问 。 问 过 一 些 问题 后 ， 如 果 被 测试 者 超过 30% 的 答复 不 能 使 
测试 人 确认 出 哪个 是 人 、 哪 个 是 机 器 的 回答 ， 那 么 这 人 台 机 器 就 通过 了 测试 ， 并 且 被 认为 具 
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有 人 类 智能 〈 见 图 13.7) 。 


四 


图 13.7 图 灵 测 试 


在 2018 年 Google IO 大 会 中 ，CEO Sunder Pichai ( 桑 达尔 。 皮 查 伊 ) 直接 拿 出 这 次 大 
会 的 王牌 一 一 Google Assistant， 它 便 应 用 了 图 灵 测 试 的 原理 ， 是 一 款 完全 颠 履 人 们 认 知 的 
程序 。 相 比较 Apple Siri 和 Microsoft Cortana 的 机 械 式 语音 对 答 ，Google Assistant 不 仅 能 听 
懂 我 们 说 的 话 ， 同 时 还 能 进行 无 障碍 的 沟通 。 在 这 次 发 布 会 上 ， 用 户 对 Google Assistant 说 
“我 想 理发 ”，Google Assistant 就 会 直接 帮忙 电话 预约 ! 而 且 整 段 和 理发 师 的 对 话 过 程 
表现 得 都 无 比 自然 流畅 ， 理 发 师 完全 没有 察觉 到 自己 竟 在 和 机 器 对 话 。Google Assistant 与 
真人 对 话 时 ， 也 丝毫 没有 表现 出 任何 的 滞后 或 逻辑 上 的 错误 。 它 更 加 厉害 的 地 方 在 于 ， 通 
过 学 习 ， 可 以 像 朋 友 一 样 陪 我 们 聊天 。 


13.8 ”人工 智能 与 机 器 人 


近 几 年 ， 回 顾 人 工 智 能 走 进 校园 的 历程 ， 我 们 很 容易 发 现 ， 人 工 智 能 进入 学 校 的 重要 
载体 就 是 机 器 人 了 。2017 年 7 月 8 日， 国务 院 出 台 《 新 一 代 人 工 智能 发 展 计划 》 指 出 ， 推 
动人 工 智能 在 教学 、 管 理 、 资 源 、 建 设 等 方面 的 应 用 。 因 此 ， 将 机 器 人 用 于 教育 中 ， 尤 其 
是 国内 外 很 多 优质 的 高 中 学 校 已 经 开设 了 各 种 各 样 的 机 器 人 创 客 教育 ， 将 人 工 智 能 的 应 用 
推 向 了 一 个 新 的 高 度 。 

机 器 人 是 一 个 涵盖 机 械 、 电 子 、 自 动 控制 、 软 件 等 诸多 学 科 的 集成 产品 ， 当 我 们 将 人 
工 智能 的 思想 ， 诸 如 语音 识别 、 视 觉 、 自 然 语 言 处 理 等 附加 其 上 ， 那 么 一 个 具有 人 工 智 能 
的 智能 机 器 人 就 应 运 而 生 了 。 人 工 智 能 极 大 地 促进 了 机 器 人 产品 的 智能 化 ， 而 机 器 人 作为 
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人 工 智 能 的 载体 将 为 人 们 的 生产 生活 提供 更 多 的 便利 化 服务 。 

本 书 及 其 配套 实验 教材 的 主要 目的 是 希望 学 生 可 以 通过 我 们 自主 开发 的 机 器 人 产品 来 
进行 人 工 智能 的 学 习 ， 在 学 完 本 套 教 材 后 ， 学 生 可 以 将 简单 的 案例 写 入 机 器 人 中 ， 这 样 更 
能 激发 学 生 的 学 习 兴 趣 ， 同 时 培养 学 生 的 综合 能 力 。 这 些 机 器 人 尤为 适应 新 课程 ， 大 大 提 
高 了 学 生 的 科学 素养 ， 学 生 可 以 在 “学 中 玩 ， 玩 中 学 ”， 机 器 人 将 会 像 计算 机 一 样 遍及 我 
们 的 校园 ， 并 且 机 器 人 也 是 人 工 智 能 学 习 很 好 的 载体 。 机 器 人 教学 集中 承载 着 信息 技术 教 
育 的 各 种 核心 价值 ， 具 有 很 强 的 持续 发 展 潜力 。 在 国外 ， 机 器 人 教育 一 直 是 个 热门 话题 ， 
在 1994 年 麻 省 理工 学 院 为 了 提高 计算 机 专业 学 生 的 设计 能 力 ,设立 了 “设计 和 建造 LEGO 
机 器 人 ”的 课程 。1992 年 开始 ， 美 国 在 高 中 生 中 就 已 经 推行 了 “感知 和 认 知 移动 机 器 人 ”。 
在 我 们 国家 ， 用 于 教育 的 机 器 人 在 许多 省 市 都 有 很 大 的 发 展 ， 在 新 的 高 中 课程 标准 中 也 设 
立 了 “人 工 智能 初步 ”的 选修 模块 ， 成 为 人 工 智能 教育 的 第 一 步 。 因 为 机 器 人 刚 进入 课程 ， 
所 以 参与 学 科教 学 的 经 验 并 不 多 ， 虽 然 高 中 的 课程 中 增加 了 人 工 智 能 这 一 部 分 ， 但 是 仍然 
是 理论 较 重 。 所 以 此 书 中 ， 我 们 在 讲理 论 的 同时 ， 加 重 了 实践 这 一 方面 ， 将 人 工 智能 融入 
机 器 人 中 ， 更 有 利于 开展 相关 的 教学 ， 而 且 机 器 人 中 含有 多 种 学 科 知识 的 技术 ， 几 乎 是 伴 
随 着 人 工 智能 产生 的 。 人 工 智 能 与 机 器 人 紧密 联系 ， 我 们 也 相信 ， 随 着 人 工 智能 的 不 断 发 
展 ， 用 于 教育 的 机 器 人 也 将 会 更 为 全 面 。 


13.9 ”人工 智能 与 Python 


人 工 智 能 程序 几乎 可 以 使 用 所 有 的 编程 语言 来 实现 ， 如 C/C++，Java 等 ， 那 么 为 什么 
首选 Python 呢 ? 

Python 作为 美国 主流 大 学 受 欢迎 的 入 门 编程 语言 , 诞生 至 今 已 经 有 20 多 年 的 时 间 , 相 
对 于 其 他 编程 语言 ，Python 更 加 易学 、 易 读 ， 非 常 适合 快速 开发 。Python 编程 简单 直接 ， 
难度 低 于 Java， 更 适合 初学 者 编程 ， 让 开发 者 更 专注 于 解决 问题 本 身 而 不 是 困惑 于 语言 
身 所 带 来 的 语法 细节 等 。Python 几乎 可 以 在 各 个 领域 使 用 ， 适 用 于 各 种 平台 ,包括 Web 开 
发 、 网 络 运 维 、 科 学 计算 、3D 游戏 和 图 形 界面 开发 和 人 工 智能 等 。 

Python 之 所 以 成 为 人 工 智能 的 首选 实现 语言 ， 除 了 简单 直接 外 ， 还 因为 它 有 优质 的 文 
档 支持 , 丰富 强大 的 AI 库 , 海量 的 模块 , 这 些 都 为 人 工 智能 提供 了 简单 而 强大 的 解决 方案 。 
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对 于 一 个 高 中 生 而 言 , 学 好 了 Python 将 对 他 们 进入 大 学 后 轻松 驾驭 各 个 领域 的 专业 实验 有 
很 大 的 帮助 。 


13:10% : 荡 结 


回顾 本 章 中 ， 我 们 学 习 了 工 智能 定义 及 其 发 展 ， 人 工 智 能 的 种 类 ; 人工 智 能 主要 分 为 
两 个 种 类 ， 一 是 运用 符号 思考 的 人 工 智 能 ， 二 是 运用 神经 网 络 思考 的 人 工 智 能 。 

然后 介绍 了 启发 式 算 法 、 遗 传 算法 和 深度 学 习 ， 并 学 习 了 什么 是 图 灵 测 试 ， 人 工 智 能 
与 机 器 人 以 及 人 工 智 能 与 Python 的 联系 。 


13.11 练 习 


(1) 人 工 智 能 是 什么 ? 为 什么 要 学 习 人 工 智能 ? 

(2) 图 灵 测 试 的 原理 是 什么 ? 

(3) 人 工 智能 技术 越 来 越发 过 ， 人 类 会 被 取代 吗 ? 人 类 会 成 为 人 工 智能 的 奴隶 吗 ? 怎 
样 权 衡 人 工 智 能 与 伦理 问题 的 问题 ? 


第 14 章 初 识 机 器 学 习 


本 章 将 通过 介绍 机 器 学 习 的 概念 、 机 器 学 习 的 类 型 与 机 器 学 习 相 关 算 法 等 基本 概念 ， 
理解 什么 是 机 器 学 习 ， 通 过 本 章 的 学 习 ， 需 要 掌握 : 

口 了解 机 器 学 习 的 基本 概念 。 

口 ”理解 机 器 学 习 中 监督 学 习 与 无 监督 学 习 的 区 别 。 

口 ”理解 K-means 算法 的 工作 原理 。 


14.1 机 器 学 习 的 基本 概念 


2016 年 3 月 ，AlphaGo 与 围棋 世界 冠军 、 职 业 九 段 棋 手 李 世 石 进行 围棋 人 机 大 战 ， 以 
4 比 1 的 总 比分 获胜 ，2017 年 5 月 ， 在 中 国 乌镇 围棋 峰会 上 ， 它 与 排名 世界 第 一 的 世界 转 
棋 冠 军 柯 洁 对 战 ， 以 3 比 0 的 总 比分 获胜 。 围 棋 界 公认 阿尔 法 围棋 的 棋 力 已 经 超过 人 类 职 
业 围棋 顶尖 水 平 ， 随 着 AlphaGo 的 大 火 ， 机 器 学 习 (Machine Leaming，ML) 开始 获得 越 
来 越 多 的 关注 。 

那么 什么 是 机 器 学 习 呢 ? 美国 卡 内 基 梅 隆 大 学 机 器 学 习 研 究 领 域 的 著名 教授 Tom 
Mitchell (汤姆 。 米 欧 尔 ) 对 机 器 学 习 的 定义 为 : “A program can be said to learm from 
experience E with respect to some class of tasks T and performance measure P.if its performance 
at tasks in T,as measured by P.improves with experience E”， 翻译 过 来 就 是 : “如 果 一 个 程序 
在 使 用 既 有 的 经 验 〈E) 执行 某 类 任务 〈T) 的 过 程 中 被 认定 为 是 “具备 学 习 能 力 的 ， 那 
么 它 一 定 需 要 展现 出 利用 现 有 的 经 验 〈E) ， 不 断 改善 其 完成 既定 任务 〈T) 的 性 能 (P) 
的 特质 ”。 

机 器 学 习 是 一 门 多 领域 交叉 学 科 ， 涉 及 概率 论 、 统 计 学 、 荧 近 论 、 凸 分 析 、 算 法 复杂 
度 理 论 等 多 门 学 科 。 它 专门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行 为 ， 以 获取 新 的 知识 
或 技能 ， 重 新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 的 性 能 。 它 是 人 工 智能 的 核心 ， 是 使 
计算 机 具有 智能 的 根本 途径 ， 其 应 用 遍及 人 工 智 能 的 各 个 领域 ， 它 主要 使 用 归纳 、 综 合 而 
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不 是 演绎 。 

除去 一 些 无 关 紧要 的 情况 ， 人 们 很 难 直接 从 原始 数据 本 身 获 得 所 需 信息 ， 例 如 ， 对 于 
垃圾 邮件 的 检测 ， 侦 测 一 个 单词 是 否 存在 并 没有 太 大 的 意义 ， 然 而 当 某 几 个 特定 单词 同时 
出 现时 ， 再 辅 以 考察 邮件 长 度 以 及 其 他 因素 ， 人 们 就 可 以 更 准确 地 判定 该 邮件 是 否 为 垃圾 
邮件 。 简 单 地 说 ， 机 器 学 习 就 是 把 无 序 的 数据 转换 成 有 用 的 信息 。 

机 器 学 习 横 跨 计算 机 科学 、 工 程 技术 和 统计 学 等 多 个 学 科 ， 需 要 多 学 科 的 专业 知识 。 
稍 后 你 就 能 了 解 到 ， 它 也 可 以 作为 实际 工具 应 用 于 从 政治 到 地 质 学 的 多 个 领域 ， 解 决 其 中 
的 很 多 问题 。 甚 至 可 以 这 么 说 ， 机 器 学 习 对 于 任何 需要 解释 并 操作 数据 的 领域 都 有 所 神 益 。 

机 器 学 习 的 工作 方式 如 下 。 

(1) 选择 数据 : 将 数据 分 成 训练 数据 、 验 证 数据 和 测试 数据 三 组 。 

(2) 模型 数据 : 使 用 训练 数据 来 构建 使 用 相关 特征 的 模型 。 

(3) 验证 模型 :使 用 验证 数据 接 入 模型 。 

(4) 测试 模型 : 使 用 测试 数据 检查 被 验证 的 模型 的 表现 。 

(5) 使 用 模型 ; 使 用 完全 训练 好 的 模型 在 新 数据 上 做 预测 。 

(6) 调 优 模型 :使 用 更 多 数据 、 不 同 的 特征 或 调整 过 的 参数 来 提升 算法 的 性 能 表现 。 


14.2 ”机 器 学 习 的 类 型 


机 器 学 习 的 类 型 ， 从 解决 问题 的 方向 来 讲 主要 可 以 分 为 两 大 类 : 监督 学 习 和 非 监 督学 
习 。 第 13 章 中 我 们 提 到 的 半 监 督学 习 也 属于 机 器 学 习 的 类 型 , 但 限于 篇 幅 , 本 章 不 做 介绍 ， 
感 兴趣 的 读者 可 以 自己 查找 一 些 书籍 学 习 。 


14.2.1 监督 学 习 


通过 已 有 的 训练 样本 《〈 即 已 知 数据 以 及 其 对 应 的 输出 ) 来 训练 ， 从 而 得 到 一 个 最 优 模 
型 ， 再 利用 这 个 模型 将 所 有 新 的 数据 样本 映射 为 相应 的 输出 结果 ， 对 输出 结果 进行 简单 的 
判断 从 而 实现 分 类 的 目的 ， 那 么 这 个 最 优 模型 也 就 具有 了 对 未 知 数据 进行 分 类 的 能 

我 们 在 很 小 的 时 候 就 会 被 大 人 教授 这 是 鸟 ， 屠 是 狗 ， 这 个 是 西瓜 ， 那 个 是 南瓜 ， 这 个 
可 以 吃 ， 那 个 不 能 吃 之 类 的 ， 我 们 眼 里 见 到 的 这 些 景物 、 食 物 就 是 机 器 学 习 中 的 输入 ， 大 
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告诉 我 们 的 结果 就 是 输出 ， 久 而 久之 ， 当 见得 多 了 ， 大 人 说 得 多 了 ， 我 们 脑 中 就 会 形成 
一 个 抽象 的 模型 ， 下 次 在 没有 大 人 提醒 的 时 候 看 见 别墅 或 者 洋 楼 ， 我 们 也 能 辨别 出 来 这 是 
房子 ， 不 能 吃 ， 房 子 本 身 也 不 能 飞 等 信息 。 上 学 的 时 候 ， 老 师 教 认 字 、 数 学 公式 、 英 语 单 
词 等 ， 我 们 在 下 次 碰 到 的 时 候 ， 也 能 区 分 开 并 识别 它们 。 这 就 是 监督 学 习 ， 它 在 我 们 生活 
中 无 处 不 在 。 在 这 里 举 个 例子 给 大 家 简单 地 阐述 一 下 监督 学 习 的 思想 。 

我 们 首先 搜索 一 些 橘子 的 图 片 如 图 14.1 所 示 。 


S21 


图 14.1 搜索 图 片 


我 们 使 用 监督 学 习 来 找到 所 要 的 橘子 的 照片 ， 而 监督 学 习 需 要 已 标记 的 样本 《包括 特 
征 值 和 对 应 的 标签 值 ) 。 学 习 样 本 和 标签 之 间 的 对 应 关系 ， 举 一 反 三 得 到 一 个 最 优 的 模型 ， 
再 利用 这 个 模型 将 所 有 新 的 数据 样本 映射 为 相应 的 输出 结果 ， 如 图 14.2 所 示 。 

特征 值 ee 一， 标签 值 ] 
特征 值 me 一， 标签 值 2 
特征 值 3 mm 一， 标签 值 3 


特征 值 4 js 一 标签 值 4 
图 14.2 映射 关系 


对 于 上 面 搜索 到 的 这 些 图 片 ， 有 很 多 不 是 橘子 的 图 片 。 例 如 ， 有 很 多 带 有 黑色 的 图 
片 ， 如 图 14.3 所 示 左 上 角 的 图 ， 它 们 其 中 一 个 特征 是 图 片 颜色 以 黑白 为 主 ， 给 这 些 图 打 
上 标签 0 表示 这 不 是 我 们 需要 的 图 :而 对 于 另 一 张 图 ， 特 征 就 是 图 片 颜色 以 橘子 该 有 的 
颜色 为 主 ， 于 是 打上 标签 1 表示 这 是 我 们 需要 的 图 〈 没 有 标签 值 的 称 为 非 监督 学 习 ) ， 
如 图 14.3 所 示 。 
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图 14.3 标签 特征 确定 


由 此 通过 训练 我 们 就 可 以 将 图 片 分 为 两 类 ， 当 收 到 一 张 没 有 标签 的 新 图 片 时 ， 就 可 以 
自动 把 它 分 到 相应 的 类 中 ， 最 后 得 出 结果 ， 如 图 14.4 所 示 。 


图 14.4 监督 学 习 结 果 


在 明白 了 监督 学 习 的 思想 后 ， 我 们 来 学 习 监 督学 习 中 的 两 类 非常 重要 的 应 用 。 
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市 汾 类 

分 类 对 于 我 们 其 实 并 不 陌生 ， 在 现实 生活 中 ， 经 常会 碰 到 这 样 的 场景 : “这 个 人 是 男 
的 还 是 女 的 ? ”， 我 们 通常 会 在 大 脑 里 考虑 非常 多 的 因素 ， 如 头发 长 得、 身材 曲线 、 穿 衣 
风格 等 ， 在 大 脑 中 ， 我 们 会 结合 观察 到 的 多 种 因素 去 判断 男女 ， 这 就 是 一 个 分 类 问题 。 

分 类 的 目的 是 学 会 一 个 分 类 函数 或 分 类 模型 (也 经 常 称 作 为 分 类 器 )， 该 模型 能 把 数据 
库 中 的 数据 项 映射 到 给 定 类 别 中 的 某 一 个 类 别 。 

分 类 属于 一 种 有 指导 的 学 习 , 模型 的 学 习 是 在 被 告知 每 一 个 训练 样本 属于 哪个 类 的 “ 指 
导 ” 下 进行 的 。 并 随机 从 样本 群 选取 。 每 一 个 训练 样本 有 一 个 特定 的 类 标签 与 之 对 应 ， 它 
不 用 于 无 指导 的 学 习 〈 聚 类 ) 。 

主要 的 分 类 算法 有 近邻 和 决策 树 。 

(1) 大 近邻 。 所 谓 的 大 近邻 ， 就 是 依据 最 邻近 的 一 个 或 者 几 个 样本 的 类 别 ， 来 决定 待 
分 类 的 样本 所 属 的 类 别 ， 步 又 主要 如 下 。 

外 计算 训练 样本 和 测试 样本 中 每 个 样本 点 的 距离 《常见 的 距离 度量 有 欧式 距离 、 马 氏 
距离 等 ) 。 

@@ 对 上 面 所 有 的 距离 值 进行 排序 。 

四 选 前 下 个 最 小 距离 的 样本 。 

图 根据 这 大 个 样本 的 标签 进行 投票 ， 得 到 最 后 的 分 类 类 别 。 

举 个 简单 的 例子 ， 我 们 常 说 ， 物 以 类 聚 ， 人 以 群 分 ， 判 别 一 个 人 是 一 个 什么 样品 质 特 
征 的 人 ， 常 常 可 以 从 他 /她 身边 的 朋友 入 手 ， 所 谓 观 其 友 ， 而 识 其 人 。 我 们 判别 图 14.5 中 的 
圆 点 是 属于 哪 一 类 数据 时 , 可 以 从 它 的 邻居 下 手 。 但 一 次 性 看 多 少 个 邻居 呢 ? 从 图 14.5 中 ， 
你 还 能 看 到 : 


图 14.5 大 近邻 距离 


“240 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 ) 


@ 如 果 有 3， 圆 点 的 最 近 的 3 个 邻居 是 2 个 三 角形 和 1 个 正方 形 ， 少 数 从 属于 多 数 ， 
基于 统计 的 方法 ， 判 定 这 个 待 分 类 点 属于 三 角形 一 类 。 

@ 如 果 后 5， 圆 点 的 最 近 的 5 个 邻居 是 2 个 三 角形 和 3 个 正方 形 ， 还 是 少数 从 属于 
多 数 ， 基 于 统计 的 方法 ， 判 定 这 个 待 分 类 点 属于 正方 形 一 类 。 

于 此 可 以 看 到 ， 当 无 法 判定 当前 待 分 类 点 是 从 属于 已 知 分 类 中 的 哪 一 类 时 ， 我 们 可 以 
依据 统计 学 的 理论 看 它 所 处 的 位 置 特 征 ， 衡 量 它 周围 邻居 的 权重 ， 而 把 它 归 为 《或 分 配 到 ) 
权重 更 大 的 那 一 类 。 这 就 是 近邻 算法 的 核心 思想 。 

(2) 决策 树 。 决 策 树 (Decision Tree) 是 一 个 树 结构 〈 可 以 是 二 又 树 或 非 二 叉 树 ) 。 
其 每 个 叶 节 点 表示 一 个 特征 属性 上 的 测试 ， 每 个 分 支 代表 这 个 特征 属性 在 某 个 值 域 上 的 输 
出 ， 而 每 个 叶 节点 存放 一 个 类 别 。 使 用 决策 树 进 行 决策 的 过 程 就 是 从 根 节点 开始 ， 测 试 待 
分 类 项 中 相应 的 特征 属性 ， 并 按照 其 值 选 择 输出 分 支 ， 直 到 到 达 叶 子 节点 ， 将 叶子 节点 在 
放 的 类 别 作为 决策 结果 。 

我 们 来 用 决策 树 执行 分 类 操作 看 一 下 ， 程 序 全 部 代码 请 查阅 配套 的 代码 包 ， 部 分 验证 
代码 如 程序 14.1 所 示 。 

呈 序 14. 1 ”决策 树 算法 : 
import trees 
IyData,labels=trees.createDataSetO 
print(labels) 
myTree=treePlotter.retrieveTree(0) 
print(myTree) 


print(trees.classify(myTree,labels,[1,0])) 
print(trees.classify(myTree,labels,[1,0])) 


NN 


输出 : 


[no surfacing', 'flippers'] 

{'no surfacing': {0: mo, 1: {'flippers': {0: 'no', 1: yes 了 
ne 

‘yes' 


分 析 : 
根据 上 述 输出 结果 。 第 一 节点 名 为 no surfacing， 它 有 两 个 子 节点 : 一 个 是 名 字 为 0 的 
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叶子 节点 ， 类 标签 为 no; 另 一 个 是 名 为 flippers 的 判断 节点 ， 此 处 进入 递归 调用 ，flippers 
节点 有 两 个 子 节点 。 

2. 回归 
归 问 题 预 测 的 结果 是 连续 的 值 ， 回 归 问 题 是 要 根据 训练 样本 找到 一 个 实 值 函数 
g(x)。 回归 问题 的 要 求 是 : 给 定 一 个 新 的 模式 ,根据 训练 集 推断 它 所 对 应 的 输出 y (实数 ) 
是 多 少 。 也 就 是 使 用 y=g(x) 来 推断 任 一 输入 x 所 对 应 的 输出 值 。 目前 比较 常见 的 回归 模型 
如 下 。 

(1) 线性 回归 (Linear Regression) 。 在 统计 学 中 ， 线 性 回归 是 利用 称 为 线性 回归 方 
程 的 最 小 平方 函数 对 一 个 或 多 个 自 变量 和 因 变 量 之 间 关 系 进行 建 模 的 一 种 回归 分 析 。 这 种 
函数 是 一 个 或 多 个 称 为 回归 系数 的 模型 参数 的 线性 组 合 。 只 有 一 个 自 变量 的 情况 称 为 简单 
回归 ， 大 于 一 个 自 变量 的 情况 叫 作 多 元 回归 。 

(2) 逻辑 回归 (Logistic Regression) 。 逻 辑 回 归 是 用 于 处 理 因 变 量 为 分 类 变量 的 
回归 问题 ， 常 见 的 是 二 分 类 或 二 项 分 布 问题 ， 也 可 以 处 理 多 分 类 问题 ， 它 实际 上 是 属 
于 一 种 分 类 方法 。 二 分 类 问题 的 概率 与 自 变量 之 问 的 关系 图 形 往往 是 一 个 S 型 曲线 ， 
采用 Sigmoid 函数 实现 。 届 辑 回归 是 一 种 广义 的 线性 回归 模型 ， 除 去 Sigmoid 映射 函 
数 关系 ， 其 他 的 步骤 、 算 法 都 是 线性 回归 的 。 可 以 说 ， 逻 辑 回 归 ， 都 是 以 线性 回归 为 
理论 支持 的 。 


14.2.2 无 监督 学 习 


加 


无 监督 学 习 中 使 用 的 数据 是 没有 标记 过 的 ， 即 不 知道 输入 数据 对 应 的 输出 结果 是 什 
么 。 无 监督 学 习 只 能 默默 地 读 取 数据 ， 自 己 寻找 数据 的 模型 和 规律 ， 如 聚 类 把 相似 数 
据 归 为 一 组 ) 和 异常 检测 寻找 异常 》， 无 监督 学 习 所 回答 的 问题 是 “从 这 些 数 据 中 能 
发 现 什么 ? ” 

例如 ， 我 们 去 参观 一 个 画展 ， 虽 然 我 们 对 艺术 一 无 所 知 ， 但 是 欣赏 完 很 多 幅 作 品 
之 后 ， 在 面 对 一 幅 新 作品 的 时 候 ， 至 少 可 以 知道 这 幅 作品 是 什么 派别 的 ， 如 更 抽象 一 
些 还 是 更 写实 一 点 ， 尽 管 不 能 很 清楚 地 领悟 这 幅 画 的 含义 ， 但 是 至 少 我 们 可 以 把 它 分 
为 某 一 类 。 

举 个 例子 ， 在 无 监督 学 习 中 给 定 的 数据 和 监督 学 习 中 给 定 的 数据 是 不 一 样 的 ， 在 无 监 


人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 ? 


督学 习 中 给 定 的 数据 没有 任何 标签 或 者 说 只 有 同一 种 标签 ， 如 图 14.6 所 示 。 


入 督学 习 无 监督 学 习 

x O 

六 

X YO 
X, x X, ~ 
O O 
OO ) OO 
O O 
> > 
Xx 法 


图 14.6 学 习 样本 

在 无 监督 学 习 中 ， 我 们 基本 上 不 知道 结果 会 是 什么 样子 ， 但 可 以 通过 聚 类 的 方式 从 
数据 中 提取 一 个 特殊 的 结构 ， 在 给 定 了 一 组 数据 后 ， 我 们 可 以 通过 数据 间 的 相似 性 发 现 
这 组 数据 中 的 特殊 结构 ， 进 而 将 这 组 数据 分 成 多 个 不 同 的 馆 ， 也 就 是 它 告诉 了 我 们 ， 这 
个 数据 能 够 这 么 分 ， 但 是 并 没有 告诉 我 们 ， 哪 个 是 我 们 需要 的 ， 如 图 14.7 所 示 ， 这 就 是 
无 监督 学 习 。 


无 监督 学 习 


> 
| 


图 14.7 无 监督 学 习 结果 


在 无 监督 学 习 中 ， 有 两 类 重要 的 应 用 。 
1. 数据 聚 类 


数据 聚 类 是 无 监督 学 习 的 主流 应 用 之 一 ， 聚 类 就 是 对 大 量 未 知 标注 的 数据 集 ， 按 数据 
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的 内 在 相似 性 将 数据 集 划 分 为 多 个 类 别 ， 使 类 别 内 的 数据 相似 度 较 大 而 类 别 间 的 数据 相似 
度 较 小 。 

给 定 一 个 有 n 个 对 象 的 数据 集 ， 构 造 数 据 的 上 个 徐 ，kn。 满 足下 列 条 件 : 

(1) 每 一 个 艇 至 少 包含 一 个 对 象 。 

(2) 每 一 个 对 象 属于 且 仅 属于 一 个 息 。 

(3) 将 满足 上 述 条 件 的 大 个 马 称 作 一 个 合理 划分 。 


基本 思想 : 对 于 给 定 的 类 别 数目 k， 首 先 给 出 初始 划分 ， 通 过 办 代 改变 样本 和 簇 的 隶 
属 关系 ， 使 得 每 一 次 改进 之 后 的 划分 方案 都 较 前 一 次 好 。 
2. 特征 降 维 


特征 降 维 是 无 监督 学 习 的 另 一 个 应 用 。 当 提取 的 数据 特征 维 数 太 多 时 ， 经 常会 导致 特 
征 匹配 时 过 于 复杂 ， 消 耗 系统 资源 ， 这 时 不 得 不 采用 特征 降 维 的 方法 。 所 谓 特征 降 维 ， 即 
采用 一 个 低 维 度 的 特征 来 表示 高 维度 。 我 们 会 经 常 在 实际 项 目 中 遭遇 特征 维度 非常 高 的 训 
练 样本 ， 而 往往 又 无 法 借助 自己 的 领域 知识 人 工 构 建 有 效 的 特征 ， 并 且 在 数据 表现 方面 ， 
我 们 无 法 用 肉眼 观测 超过 三 个 维度 的 特征 。 因 此 ， 特 征 降 维 不 仅 重 构 了 有 效 的 低 维度 特征 
向 量 ， 同 时 也 为 数据 展现 提供 了 可 能 。 

(1) 主 成 分 分 析 算 法 (Principal Component Analysis，PCA) 。 是 最 常用 的 线性 降 维 
方法 ， 它 的 目标 是 通过 某 种 线性 投影 ， 将 高 维 的 数据 映射 到 低 维 的 空间 中 表示 ， 并 期 望 在 
所 投影 的 维度 上 数据 的 方差 最 大 ， 以 此 使 用 较 少 的 数据 维度 ， 同 时 保留 住 较 多 的 原 数据 点 
的 特性 。 

(2) 局 部 线性 嵌入 〈Locally Linear Embedding，LLE) 。 是 一 种 非 线 性 降 维 算法 ， 它 
能 够 使 降 维 后 的 数据 较 好 地 保持 原 有 流 形 结构 。LLE 可 以 说 是 流 形 学 习 方法 最 经 典 的 工作 
之 一 。 很 多 后 续 的 流 形 学 习 、 降 维 方法 都 与 LLE 有 密切 联系 。 


14.3 ” 聚 类 案例 : K-means 聚 类 算法 
聚 类 是 一 种 无 监督 学 习 的 方法 , 即 事先 并 不 知道 要 寻找 的 目标 ， 聚 类 将 一 堆 没 有 标签 ， 


但 特征 相似 的 数据 自动 归 类 。 下 面 将 通过 学 生成 绩 评 估 的 例子 具体 介绍 聚 类 算法 工作 原理 。 
某 外 语 学 校 按照 惯例 在 每 个 学 期 期 末 对 学 生 半 年 的 学 习 表 现 进行 一 次 综合 测评 ， 其 衡量 指 
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标 如 表 14.1 所 示 。 


表 14.1 英语 成 绩 表 


Written English 
89 


Spoken English 
90 
85 
78 
70 
80 
60 
67 


76 


60 


对 应 的 成 绩 情 况 坐 标 图 ， 如 图 14.8 所 示 。 


90[ e001 000 
[ 
85 上 
豆 
酝 80 
入 O04 
5 002 
主 75 
三 
70| 006 03 
® 
65 | 005 
二 
65 70 75 80 85 90 


Spoken English 
图 14.8 ”英语 成 绩 图 
为 了 避免 试卷 的 难 易 程度 对 测评 的 影响 ， 校 方 需要 按照 各 指标 的 相似 程度 为 学 生 评估 
A、B、C 三 个 等 级 ， 现 在 的 问题 是 应 该 采用 何 种 方式 划分 成 绩 等 级 呢 ? 显然 ， 我 们 可 以 从 
案例 中 得 到 两 个 关键 字 : 一 是 相似 程度 ， 一 是 三 等 级 。 对 应 于 图 14.8， 如 果 已 经 得 知 三 等 
级 的 坐标 ， 那 么 我 们 就 可 以 基于 两 点 间距 离 计 算 相 似 度 ， 寻 找 图 中 每 一 点 最 近 的 等 级 坐标 ， 
将 该 点 归 为 该 等 级 ， 其 结果 如 图 14.9 所 示 。 
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Written English 
一 
o 
[ee 
eS 
kh 
| 


-2 
C=: 
[=4 

三 
ba 


60| 05 


60 65 


0 75 80 85 0 
Spoken English 
图 14.9 英语 成 绩 图 
这 种 根据 对 象 与 聚 类 质心 之 间 的 距离 聚 类 对 象 的 过 程 ， 属 于 无 监督 学 习 中 常用 的 一 种 
聚 类 方式 ， 如 K-means 聚 类 。K-means 是 最 简单 ， 但 运用 十 分 广泛 的 算法 ， 其 最 终 目标 是 
把 n 个 样本 点 划分 到 个 类 簇 中 ， 使 得 每 个 点 都 属于 离 它 最 近 的 质心 对 应 的 类 簇 。 现 在 让 
我 们 来 看 下 K-means 聚 类 算法 的 具体 步骤 : 
(1) 初始 化 质心 。K-means 算法 需要 事先 确定 类 簇 分 支 数 ， 并 初始 化 各 类 簇 的 质心 。 
(2) 聚 类 对 象 。K-means 算法 按照 对 象 与 质心 间 的 距离 划分 类 艇 ， 其 中 ， 距 离 可 以 是 
欧式 距离 quaiasa : 
Gasem = NH — Xa) + (8 —y2) (14-1) 
或 是 余弦 距离 qos : 


deve = (14-2) 
NY 
(3) 更 新 质心 。K-means 完成 对 象 聚 类 后 ， 计 算 各 类 簇 中 对 象 的 平均 值 ， 并 以 此 作为 
新 的 质心 。 
现在 结合 表 14.1 的 数据 进一步 整理 K-means 计算 流程 ， 首 先 随机 初始 化 质心 
有 4={50,50} ，B={79,79} ，C= {95,95} ， 接 着 以 欧式 距离 聚 类 对 象 ， 其 中 属于 类 簇 4 的 对 
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象 有 {006} ， 而 属于 类 和 能 及、 C 的 对 象 分 别 为 {003,004,005,006} ， {001,002} ， 在 得 到 各 类 
和 贸 对象 后 ， 开 始 计算 各 类 簇 的 平均 值 ， 其 中 mrears = {65,65} ， meama = {73.75,72.75} ， 
meanc = {87.5,89.5} ， 最 后 更 新 质心 ， 并 重复 上 一 步 ， 直 到 所 有 人 簇 的 质心 不 再 改变 。 接 下 来 
我 们 尝试 着 梳理 算法 的 脉络 ， 可 构建 出 一 个 完整 的 K-means 聚 类 流程 ， 如 图 14.10 所 示 。 


(开始 


初始 化 类 簇 质心 


计算 各 对 象 到 质心 距离 ， 
并 根据 最 小 距离 划分 对 象 


基于 均值 的 方式 更 新 质心 


结束 
图 14.10 ”K-means 聚 类 算法 流程 图 


再 整理 出 K-means 算法 的 一 般 步骤 ， 编 写 代码 如 程序 14.2 所 示 。 
程序 14.2”K-means 算法 : 


import numpy as np 

from sklearn.cluster import KMeans 

file_path = Teport.data' 

dataset = np.loadtxt(file_path, delimiter=",") 

kmeans = KMeans(init="random", n_clusters=3) 

s = kmeans.fit(dataset) 

print("the centroid of cluster are:\n{0}".format(kmeans.cluster_centers )) 
print("the member of cluster are:{0}\n".format(kmeans.labels )) 


Oo 
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输出 : 


the centroid of cluster are: 
[[65.66666667 65.66666667] 


[79. 77. ] 
[87.5 89.5 ]] 
the member of cluster are: 
[2210100] 
分 析 : 


首先 我 们 通过 import 语句 分 别 导 入 numpy 模块 和 scikit-learn 中 的 KMeans 类 ,接着 就 
可 调用 numpy 模块 的 loadtxt 方法 加 载 表 14.1 中 的 数据 ， 之 后 实例 化 KMeans 对 象 ， 并 调 
用 其 fit 方法 训练 该 对 象 ， 最 后 得 到 其 训练 后 的 Kmeans 模型 。 值 得 注意 的 是 ， 我 们 在 实例 
化 KMeans 对 象 时 ， 可 选择 其 初始 化 类 敌 质 心 的 方式 ， 如 init="random" 表 示 随 机 选择 初始 
质心 ， 也 能 够 自 定 义 其 类 徐 数 ， 这 里 的 设置 是 n_clusters=3， 即 最 终 该 数据 将 聚 类 为 3 个 类 
和 化，K-means 算法 是 无 监督 学 习 的 一 个 典型 例子 。 


14.4 总 结 
我 们 在 本 章 中 了 解 了 机 器 学 习 、 机 器 学 习 的 分 类 与 有 监督 学 习 和 无 监督 学 习 的 基本 概 
念 ， 并 学 习 了 Python 中 相关 模块 的 基本 语法 ， 最 后 通过 K-means 聚 类 算法 的 实际 案例 ， 深 
刻 地 理解 了 什么 是 机 器 学 习 ， 切 实感 受到 了 Python 的 模块 化 编程 思想 的 强大 与 便捷 。 


14.5 练 习 


(1) 经 统计 ，2017 年 全 国 各 省 消费 数据 如 下 : 
北京 浙江 


天 津 河北 山西 福建 条 于 吉林 上 海 江苏 
2959.1 | 2459.7 | 1495.6 | 14063 | 2709.5 | 1730.8 | 1561.8 | 37123 | 2207.5 | 2629.1 


使 用 KK-means 算法 对 各 省 份 消费 水 平 进行 分 类 (类别 数 为 2〉。 
(2) 在 某 电影 剧场 中 ， 上 映 的 题材 有 爱情 片 、 动 作 片 等 ， 如 果 一 部 电影 中 接吻 镜头 很 
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.248 。 
电影 题材 的 打斗 动 


属于 爱情 片 ， 反 之 为 动作 片 。 先 对 该 剧场 中 


多 ， 打 斗 镜头 较 少 ， 显 然 是 
作 和 接吻 动作 数量 进行 评估 ， 数 据 如 下 : 


电影 名 称 电影 类 别 
Califoria Man 104 爱情 片 
Beautigul Woman 爱情 片 
Kevin Longblade 动作 片 
动作 片 


Amped II 
若 给 定 一 部 电影 数据 (18.90)， 表 示 打 斗 镜头 为 18 个 ， 接 吻 镜 头 为 90 个 ， 请 用 邻近 


算法 判断 该 电影 的 类 型 。 


第 15 章 自然 语言 处 理 


本 章 将 学 习 什 么 是 自然 语言 处 理 。 我 们 将 讨论 一 些 处 理 文 本 的 新 概念 ， 如 分 词 
(tokenization) 、 词 干 提取 (〈stemming) 、 词 形 还 原 〈lemmatization) 等 来 处 理 文本 。 之 后 
将 讨论 什么 是 词 袋 模型 (Bag of Words) 并 如 何 使 用 它 来 对 文本 进行 分 类 。 我 们 将 会 弄 明 白 
如 何 使 用 机 器 学 习 来 分 析 给 定 句 子 的 意思 。 最 后 将 讨论 主题 建 模 (topic modeling) 。 学 完 
本 章 后 ， 将 会 了 解 : 
口 什么 是 自然 语言 处 理 。 
文本 分 词 。 
使 用 stemming 还 原 词 汇 。 
使 用 lemmatization 还 原 词汇 。 
文本 分 块 。 
使 用 词 袋 模型 提取 文章 中 的 词 频 矩 阵 。 
构建 性 别 识别 器 。 


OOOOO DO 


15.1 什么 是 自然 语言 处 理 


自然 语言 处 理 〈Natural Language Processing，NLP) 〈 见 图 15.1) 是 计算 机 科学 领域 
与 人 工 智能 领域 中 的 一 个 重要 方向 。 它 研究 能 实现 人 与 计算 机 之 间 用 自然 语言 进行 有 效 通 
信 的 各 种 理论 和 方法 。 自 然 语言 处 理 是 一 门 融 语言 学 、 计 算 机 科学 、 数 学 于 一 体 的 科学 。 
因此 ， 这 一 领域 的 研究 将 涉及 自然 语言 ， 即 人 们 日 常 使 用 的 语言 ， 所 以 它 与 语言 学 的 研究 
有 着 密切 的 联系 ， 但 又 有 重要 的 区 别 。 自 然 语 言 处 理 并 不 是 一 般 地 研究 自然 语言 ， 而 在 于 
研制 能 有 效 地 实现 自然 语言 通信 的 计算 机 系统 ， 特 别 是 其 中 的 软件 系统 。 因 而 它 是 计算 机 
科学 的 一 部 分 。 
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图 15.1 自然 语言 处 理 
自然 语言 处 理 (NLP) 已 经 成 为 现代 系统 的 重要 组 成 部 分 。 它 广泛 应 用 于 搜索 引擎 、 
人 机 对 话 接口 、 文 档 处 理 等 ， 如 图 15.2 所 示 。 机 器 可 以 很 好 地 处 理 结构 化 数据 。 但 是 ， 当 
涉及 无 固定 形式 的 文本 时 ， 它 将 很 难处 理 。NLP 的 目标 是 开发 一 种 算法 ， 使 计算 机 能 够 理 
解 无 结构 的 文本 ， 并 帮助 它们 理解 这 种 语言 。 


和 
”其 他 We 


语音 识别 人 


0909 ee 
Bai 全 知道 ”问答 ss 
NLP ) | 
一 机 器 翻译 
信息 检索 
Google 


图 15.2 自然 语言 处 理 的 应 用 
处 理 无 结构 自然 语言 的 最 大 的 一 个 挑战 是 词 的 数量 多 ， 变 化 大 。 上 下 文 在 如 何 理 解 特 
定 的 句子 方面 起 着 非常 重要 的 作用 。 人 类 在 这 方面 很 擅长 ， 因 为 我 们 为 此 已 经 训练 了 很 多 
年 了 。 我 们 可 以 马上 使 用 我 们 过 去 的 知识 去 理解 上 下 文 并 知道 对 方 在 说 什么 。 
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针对 这 个 问题 ，NLP 研究 人 员 开 始 使 用 机 器 学 习 方 法 开发 各 种 应 用 程序 。 要 构建 这 样 
的 应 用 程序 ， 需 要 收集 大 量 的 文本 ， 然 后 训练 算法 执行 各 种 任务 ， 如 对 文本 进行 分 类 、 分 
析 语 义 或 主题 建 模 。 这 些 算法 被 训练 去 捕获 输入 文本 数据 以 及 其 衍生 的 意思 。 

在 这 一 章 中 , 我 们 将 讨论 用 于 分 析 文 本 和 构建 NLP 应 用 程序 的 各 种 基础 概念 , 这 将 使 我 
们 能 够 理解 如 何 从 给 定 的 文本 数据 中 提取 有 意义 的 信息 。 在 本 章 的 开始 ， 我 们 需要 先导 入 
Python 的 第 三 方 库 NLTK (Natural Language Toolkit) ， 它 是 一 个 自然 语言 处 理工 具 包 ,在 之 
后 的 程序 中 我 们 会 用 到 它 。 此 外 ， 为 了 能 够 访问 NLTK 提供 的 数据 集 ， 我 们 需要 下 载 这 些 数 
据 集 。 我 们 需要 在 命令 提示 符 下 进入 Python 环境 ， 并 输入 以 下 代码 来 下 载 这 些 数 据 集 

>>> import nltk 

>>> nltk.download0 

这 样 在 之 后 的 编程 中 ， 我 们 就 能 够 使 用 NLTK 提供 的 数据 集 了 。 另 外 ， 我 们 还 将 在 本 
章 中 使 用 一 个 名 为 gensim 的 Python 包 ， 它 是 一 个 健壮 的 语义 模型 库 ， 对 于 很 多 应 用 是 很 
有 帮助 的 ， 在 之 后 的 编程 中 我 们 会 详细 地 介绍 gensim 包 。 为 了 让 gensim 更 好 地 发 挥 作 用 ， 
还 需要 安装 一 个 名 为 pattem 的 软件 包 。 在 进行 编程 之 前 ， 请 确保 安装 了 NLTK 和 gensim。 

提示 : 

(1) 在 Python 2.X 的 版 本 中 ， 如 果 只 安装 gensim 包 ， 程序 有 可 能 会 报错 ， 会 提示 缺 
少 patterm 包 ， 所 以 还 需要 安装 pattern 包 。 

(2 ) 在 Python 3.X 的 版 本 中 ,pattern 包 进 行 了 升级 ,如 果 要 安装 它 , 请 安装 pattern3 ， 
它 是 pattern 包 的 升级 。 


15.2 文本 分 词 


当 处 理 文本 时 ， 我 们 需要 将 它 拆 分 成 小 片 来 进行 分 析 。 它 是 将 输入 的 文本 分 成 像 单词 
或 句子 的 一 小 片 ， 这 些 片 被 称 之 为 原型 。 我 们 可 以 根据 自己 所 想 ， 定 义 自己 的 方法 将 文本 
分 成 许多 片 。 

例如 ， 用 这 样 一 个 句子 来 进行 分 词 : Do you know what natural language processing is? 
This is a very interesting technology! Well look at it in this section. 

如 果 我 们 是 以 句子 为 原型 进行 分 词 ， 那 么 结果 是 这 样 的 : 


"Do you know what natural language processing 1s?' ' This is a very interesting technology!' 
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"We’l] look at it in this section 

如 果 我 们 以 单词 为 原型 进行 分 词 ， 那 么 结果 是 这 样 的 : 

'Do', 'you', know', ‘what', natural', ‘language', 'processing’, 'is', 7', 'This', 's', 'a', 'Vvery', 
'interesting', ‘technology’, 1', "We', "11", look 'at', it "in', 'this', 'section', '.' 

如 果 我 们 按照 标点 符号 来 进行 划分 的 话 ， 那 么 它们 也 会 被 单独 划分 出 来 。 

下 面 用 一 段 程序 来 实现 文本 的 分 词 ， 如 程序 15.1 所 示 。 

程序 15.1 文本 分 词 : 
from nltk.tokenize import sent_tokenize, word_tokenize, WordPunctTokenizer 


input_text = "Do you know what natural language processing is? This is a very 
interesting technology! We'll look at it in this section." 


print("\nSentence tokenizer:") 
print(sent_tokenize(input_text)) 


oy 


print("\nWord tokenizer:") 
10: print(word_tokenize(input_text)) 


12: print("mWord punct tokenizer:") 
13: print(WordPunctTokenizer().tokenize(input_text)) 


输出 : 
Sentence tokenizer: 


[Do you know what natural language processing is?', 'This is a very interesting technology!, "We'll look at 
it in this section."] 


Word tokenizer: 

[Do', ‘you', ‘know', ‘what', ‘natural', ‘language', 'processing'’, 'is', "7', 'This', 'is', 'a', 'very'’, 'interesting', 
‘technology’, "!', We’, "11", 'look’, 'at', it "in', this' 'section', ".'] 

Word punct tokenizer: 

['Do', ‘you', ‘know', 'what', ‘natural', ‘language', 'processing’, '1s', "7', 'This', 'is', 'a', 'very', "interesting', 
‘technology',, 1', We', wo ‘Il, ‘look’, at it ‘in', ‘this', 'sectiom', 中 

分 析 : 

本 程序 中 我 们 先导 入 NLTK 程序 包 , 用 于 导入 不 同形 式 的 分 词 器 。 然 后 定义 了 将 用 于 分 词 
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的 输入 文本 。 之 后 我 们 分 别 使 用 不 同 的 分 词 器 对 输入 文本 进行 分 词 。sent tokenize 是 将 输入 文 
本 以 句子 为 原型 进行 划分 的 ; word tokenize 是 将 输入 文本 以 单词 为 原型 进行 划分 的 ， 此外， 它 
还 包括 每 一 句 最 后 的 标点 符号 ; WordPunctTokenizer 与 word tokenize 的 不 同 之 处 是 句子 当中 
的 标点 也 会 被 划分 出 来 。 例 如 ，Well 中 的 “'” 也 被 划分 出 来 了 。 

提示 : 

NLTK (Natural Language Toolkit ) 是 一 套 基 于 Python 的 自然 语言 处 理工 具 集 。 它 用 来 处 理 
人 类 自然 语言 数据 ， 提 供 了 易于 使 用 的 接口 ， 通 过 这 些 接口 可 以 访问 超过 50 个 语料库 和 词汇 资 
源 (如 WordNet) ， 还 有 一 套用 于 分 类 、 标 记 化 、 词 干 标记 、 解 析 和 语义 推理 的 文本 处 理 库 等 。 

中 文 分 词 的 情况 就 比较 麻烦 了 。 在 中 文 文本 中 ， 所 有 的 词语 连接 在 一 起 ， 计 算 机 并 不 
知道 一 个 字 应 该 与 其 前 后 的 字 连 成 词语 ， 还 是 应 该 自己 形成 一 个 词语 。 因 此 我 们 对 文本 构 
建 词 袋 之 前 ， 需 要 先 借助 额外 的 手段 将 文本 中 的 词语 分 隔 开 。 中 文 分 词 方法 大 多 基于 匹配 
与 统计 学 方法 ， 我 们 在 这 里 不 做 详细 介绍 了 。 


15.3 使 用 stemming 还 原 词汇 
对 于 一 些 变化 的 词汇 ， 我 们 必须 处 理 相同 单词 的 不 同形 式 ， 并 且 使 计算 机 能 够 明白 这 
些 不 同 的 单词 有 相对 的 形式 。 例 如 ， 单 词 write 能 够 以 很 多 形式 出 现 ， 如 wrote、writer、 
writing 等 ， 如 图 15.3 所 示 。 我 们 刚刚 看 到 的 是 有 相同 意思 的 一 系列 的 单词 。 人 类 能 够 轻松 


地 识别 这 些 单词 的 基础 形式 和 衍生 形式 。 
衍生 形式 


基础 形式 


图 15.3 ”write 的 衍生 形式 
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当 我 们 分 析 文本 时 ， 提 取 这 些 基 本 形式 是 很 有 用 的 。 它 将 使 我 们 能 够 提取 有 用 的 统计 
信息 来 分 析 输 入 文本 。 词 干 提取 〈stemming) 能 够 做 到 这 一 点 。 词 干 提取 器 〈stemmer) 的 
目的 是 通过 将 单词 的 不 同形 式 转换 为 基本 形式 来 减少 单词 量 。 去 掉 单 词 的 尾部 将 其 变 成 基 
本 形式 是 一 个 启发 式 的 过 程 。 

提示 : 

启发 式 指 人 在 解决 问题 时 所 采取 的 一 种 根据 经 验 规则 进行 发 现 的 方法 。 其 特点 是 在 解决 问 
题 时 , 利用 过 去 的 经 验 , 选择 已 经 行 之 有 效 的 方法 , 而 不 是 系统 地 、 以 确定 的 步骤 去 寻求 答案 。 

下 面 将 用 一 个 例子 带 你 更 加 详细 地 了 解 stemming 的 原理 。 我 们 用 'reading','calves', 
'acting'，mndefined'，house'，'possibly'，'version'，hotel，'leared'，'experience' 这 些 单词 作为 测 
试 ， 来 看 看 stemming 是 如 何 工作 的 ， 如 程序 15.2 所 示 。 

旺 序 15.2 ”使 用 stemming 还 原 词汇 : 


from nltk.stem.porter import PorterStemmer 
from nltk.stem.lancaster import LancasterStemmer 
from nltk.stem.snowball import SnowballStemmer 


input_words = [reading', 'calves', 'acting', ‘undefined', ‘house', 
‘possibly', 'version', ‘hotel', 'learned', 'experience'] 


nn 


porter = PorterStemmer() 
9: lancaster= LancasterStemmer() 
10: snowball = SnowballStemmer('‘english') 


12: stemmer names = [Porter,'Lancaster,'Snowball] 
13: formatted text="{:>16}'* (len(stemmer names)+ 1) 
14: print(\n', formatted_text.format(Input Word', *stemmer_names), \n', *"*70) 


焰 : 
16: for word in input_words: 
1 天 output = [word, porter. stem(word), 
18: lancaster.stem(word), snowball.stem(word)] 
19: print(formatted_text.format(*output)) 
输出 : 
Input Word Porter Lancaster Snowball 


六 六 六 这 六 六 六 六 六 玉米 六 六 这 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 来 六 六 六 来 六 六 来 玉 六 六 玉米 六 六 六 闪 闵 闵 六 六 闵 六 六 六 六 六 六 六 六 六 六 六 六 闪 


reading read Tead Tead 
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calves calv calv calv 
acting act act act 
Undefined undefin undefin undefin 
house hous hous hous 
possibly possibl poss possibl 
version Version Vert Version 
hotel hotel hotel hotel 
leamed leam leam leam 
experience experi expery experi 
分 析 : 


在 这 个 程序 中 ,我 们 先导 入 了 3 个 不 同 的 词 干 提取 器 ， 它 们 分 别 是 porter、lancaster、 
snowball。 然 后 定义 了 一 些 单 词 作为 输入 来 进行 测试 。 在 程序 的 第 8 一 10 行 我 们 创建 了 3 
个 提取 器 对 象 。 第 12 一 14 行 我 们 创建 了 一 个 显示 表格 并 格式 化 了 输出 文本 。 第 16 一 19 行 
遍历 输入 单词 并 使 用 3 个 不 同 的 词 干 提取 器 提取 词根 。 

我 们 讨论 一 下 这 里 使 用 的 3 种 词 干 提取 算法 。 它 们 基本 上 都 是 为 了 实现 相同 的 目标 。 
它们 之 间 的 区 别 在 于 还 原 成 基本 形式 的 严格 程度 是 不 同 的 。 

在 严格 程度 上 ，porter 词 干 提取 器 是 最 不 严格 的 ， 而 lancaster 是 最 严格 的 。 如 果 仔 细 
观察 输出 ， 你 会 注意 到 它们 之 间 的 区 别 。 当 涉及 单词 如 possibly 或 version 时 词 干 提取 器 的 
行为 会 有 所 不 同 。 从 lancaster 词 干 提取 器 获得 的 输出 有 点 模糊 ， 因 为 它 减少 了 很 多 尾 词 。 
而 且 ， 这 个 算法 非常 快 。 一 个 很 好 的 经 验 是 使 用 snowball 词 干 提取 器 ， 因 为 它 在 速度 和 严 
格 程度 之 间 有 很 好 的 平衡 。 


15.4 基于 词义 的 词 形 还 原 


lemmatization 是 另 一 种 词 形 还 原 的 方式 。 在 前 一 节 中 ， 我 们 看 到 从 词 干 中 提取 词 的 基 
本 形式 有 时 候 可 能 没有 任何 意义 。 例 如 ，3 个 词 干 提取 器 都 显示 calves 的 基本 形式 是 calv， 
但 它 并 不 是 一 个 真正 的 单词 。lemmatization 采取 了 一 种 更 具 结 构 化 的 方法 解决 了 这 个 问题 。 

lemmatization 原理 是 使 用 语法 和 词 态 分 析 器 进行 单词 分 析 。 它 包含 去 除了 如 ing 和 ed 
等 后 级 的 单词 的 基本 形式 。 所 有 基本 形式 的 单词 集合 被 称 作 字 典 。 如 果 使 用 lemmatization 
对 calves 进行 词 形 还 原 ， 将 输出 calf。 值 得 注意 的 是 单词 基本 形式 的 输出 依赖 于 该 词 是 动 
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词 还 是 名 词 。 


这 里 ， 我 们 将 使 
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lemmatization 来 对 上 一 节 例子 中 的 单词 进行 词 形 还 原 ， 过 


而 比较 它 


们 之 间 的 区 别 。 我 们 分 别 使 用 名 词 还 原 器 和 动词 还 原 器 对 单词 进行 词 形 还 原 ， 如 程序 15.3 


所 示 。 


程序 15.3 ”使 用 lemmatization 还 原 词汇 : 


On 


IE 
12: for word in input words: 
43 output = [word, lemmatizer.lemmatize(word, pos='n'"), 
14: lemmatizer.lemmatize(word, pos='v)] 
5: print(formatted_text.format(*output)) 
输出 : 
Input Word Noun Lemmatizer Verb Lemmatizer 
米 闵 米 六 米 闵 冰冰 六 六 冰冰 六 冰冰 六 六 六 冰冰 六 六 冰冰 玉 六 冰冰 六 玉米 闵 六 六 六 冰冰 米 六 冰冰 六 玉米 六 冰冰 六 冰冰 六 六 六 冰冰 玉米 冰冰 六 
reading reading read 
calves calf calve 
acting acting act 
undefined Undefined undefined 
house house house 
possibly possibly possibly 
Version version Version 
hotel hotel hotel 
learned leamed learmn 
experience experience experience 
分 析 : 


from nltk.stem import WordNetLemmatizer 


input_words = [reading', 'calves', 'acting', ‘undefined', ‘house', 
possibly', 'version', 'hotel', 'learned', 'experience'] 


lemmatizer = WordNetLemmatizer() 
lemmatizer_names = [Noun Lemmatizer, 'Verb Lemmatizer] 


formatted text= '{:>24}' * (len(lemmatizer_ names) + 1) 
10: print(\n', formatted_textformat(Input Word', *lemmatizer_names), \n', *"*74) 


我 们 先导 入 了 一 个 词 形 还 原 器 WordNetLemmatizer。 接 着 我 们 还 是 使 用 上 节 中 使 用 的 
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输入 单词 来 进行 测试 ， 以 便 比 较 它 们 的 输出 有 什么 不 同 。 程 序 的 第 8 一 10 行 是 创建 显示 列 
表 并 格式 化 文本 。 程 序 的 第 12 一 15 行 遍历 输入 单词 并 分 别 使 用 动词 还 原 器 和 名 词 还 原 器 来 
还 原 词汇 。 

我 们 可 以 看 到 ， 当 遇 到 形 如 reading 或 者 calves 这 些 单词 时 ， 名 词 还 原 器 和 动词 还 原 器 
的 还 原 结果 是 不 一 样 的 。 如 果 将 这 些 输 出 与 之 前 的 词 干 提取 器 的 输出 结果 相 比 ， 这 两 者 的 结 
果 也 有 不 同 。lemmatizer 输出 都 是 有 意义 的 ， 而 stemmer 输出 可 能 有 意义 也 可 能 没有 意义 。 


15.5 文本 分 块 


文本 数据 经 常 需要 被 分 成 几 小 块 来 进行 分 析 ， 这 个 过 程 称 之 为 分 块 。 这 种 技术 在 文本 
分 析 中 使 用 频繁 。 使 用 文本 分 块 的 情况 变化 很 多 ， 各 不 相同 ， 这 依赖 于 手头 的 项 目 。 文 本 
分 块 与 分 词 不 同 。 在 分 块 时 ， 我 们 不 受 任何 条 件 的 限制 ， 并 且 输 出 的 结果 是 有 意义 的 。 

当 我 们 处 理 大 篇 幅 的 文本 文档 时 ， 将 文本 分 块 就 显得 很 重要 ， 这 有 利于 提取 有 意义 的 
信息 。 我 们 可 以 根据 单词 的 数量 来 进行 分 块 ， 也 可 以 根据 其 他 的 一 些 条 件 来 分 块 。 下 面 我 
们 来 实现 程序 15.4， 用 于 将 输入 的 文本 进行 分 块 。 

程序 15.4 ”文本 分 块 : 


1 import numpy as np 

2: from nltk.corpus import brown 

EE 

4: defchunker(input_data, N): 

$: input_words = input_data.split( ) 
6: output =[] 

/ cur_chunk=[] 

8: count=0 

9: for word in input_ words: 

10: cUL chunk.append(word) 

1 count + 一 1 

2: if count — N: 

En output.append(' ‘join(cur_chunk)) 
14: count, cur_chunk = 0, [] 
1 output.append(' '.join(cur_chunk)) 
16: return output 
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18: if_name 一 ' main ': 

19: input data ="' '.join(brown.wordsO[:6300]) 

20: chunk size = 800 

Zl chunks = chunker(input_data, chunk_size) 

2 print(\nNumber of text chunks =", len(chunks), "\n') 
23: for i, chunk in enumerate(chunks): 

24: print(CChunk', i+ 1, 一 >', chunk[:S0]) 

输出 : 


Number of text chunks = 8 

Chunk 1 一 > The Fulton County Grand Jury said Friday an invest 
Chunk 2 一 >2 , 1913 . They have a son , William Berry Jr. ,a 
Chunk 3 一 > bonds . Schley County Rep. B. D. Pelham will offer 
Chunk 4 一 > Texas was a republic " . It permits the state to 
Chunk 5 一 > the requirement that each return be notarized . In 
Chunk 6 一 > the Education courses . Fifty-three ofthe 150 rep 
Chunk 7 一 > drafts ofportions of the address with the help of 
Chunk 8 一 > plan alone would boost the base to $5,000 a year a 


分 析 : 

这 个 程序 的 主要 作用 是 将 文本 进行 分 块 。 首 先 ， 我 们 先导 入 numpy 库 (Python 的 一 个 
扩充 程序 库 ， 支 持 高 级 大 量 的 维度 数组 与 矩阵 运算 ) 。 接 着 我 们 从 NLTK 的 语料库 中 导入 
Brown 语料库 ， 它 作为 我 们 将 要 进行 分 块 的 文本 。 接 着 我 们 定义 一 个 分 块 函数 ， 这 个 函数 
接受 两 个 参数 ， 第 一 个 参数 是 输入 文本 ， 第 二 个 参数 是 每 一 块 的 单词 数量 。 在 该 函数 中 我 
们 遍历 输入 文本 中 的 单词 并 使 用 输入 参数 将 它们 分 块 ， 函 数 返 回 一 个 列表 。 随 后 我 们 定义 
主 函 数 ， 并 且 读 入 Brown 语料库 中 的 文本 。 我 们 读 入 了 文本 中 前 6300 个 单词 ， 读 取 多 少 
单词 可 以 自己 决定 。 程 序 的 第 20 行 定义 了 每 块 的 单词 数 。 程 序 的 第 21~24 行 是 将 输入 文 
本 分 块 并 显示 输出 结果 。 

提示 : 

Brown 语料库 (Brown Corpus ) 是 20 世纪 60 年 代 初 美国 Brown 大 学 创建 的 。Brown 
语料库 收集 了 500 个 连贯 英语 书面 语 ， 每 个 文本 超过 2000 词 ， 整 个 语料库 约 1014300 词 。 
该 语料库 是 第 一 个 机 读 语 料 库 ， 也 是 第 一 个 平衡 语料库 。 它 用 于 研究 当代 美国 英语 。 尽 管 
由 现在 理论 及 技术 的 水 准 看 来 ，Brown 的 资料 及 平衡 方式 略 显 粗糙 ， 可 是 这 个 语料库 一 直 
是 (英语 ) 平衡 语料库 的 标准 。 
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程序 15.4 一 共 输 出 了 8 个 块 ， 每 个 块 显示 了 前 50 个 字符 。 
15.6 使 用 词 袋 模型 提取 词 频 矩阵 


Bag of Words， 也 称 作 “ 词 袋 ”。 它 是 用 于 描述 文本 的 一 个 简单 数学 模型 ， 也 是 常用 的 
一 种 文本 特征 提取 方式 。 在 信息 检索 中 ， 词 袋 模型 假定 对 于 一 个 文本 ， 忽 略 其 次 序 和 语法 ， 
将 其 仅仅 看 作 是 若干 词汇 的 集合 。 文 档 中 每 个 单词 的 出 现 都 是 独立 的 ， 不 依赖 于 其 他 单词 
是 否 出 现 。 也 就 是 说 ， 文 档 中 任意 一 个 位 置 出 现 的 任何 单词 ， 都 不 受 该 文档 语意 影响 而 是 
独立 选择 的 。 

文本 分 析 的 主要 目标 之 一 是 将 文本 转换 成 数值 形式 ， 这 样 就 可 以 在 上 面 使 用 机 器 学 习 
了 。 让 我 们 考虑 一 下 包含 数 百 万 个 单词 的 文本 文档 。 为 了 分 析 这 些 文档 ， 我 们 需要 提取 文 
档 ， 并 将 其 转换 为 数值 形式 。 

机 器 学 习 算 法 需要 处 理 数值 形式 的 数据 , 以 便 它们 能 够 分 析 数 据 并 且 提 取 有 用 的 信息 。 
我 们 可 以 用 词 袋 模型 从 文档 的 所 有 单词 中 提取 特征 单词 ， 并 且 用 这 些 特征 项 矩阵 建 模 。 这 
就 使 得 我 们 能 够 将 每 一 份 文档 描述 成 一 个 词 袋 。 我 们 只 需要 记录 单词 的 数量 ， 语 法 和 单词 
的 顺序 都 可 以 忽略 。 

那么 一 份 文档 的 单词 矩阵 是 怎样 的 呢 ? 一 个 文档 的 单词 窍 阵 是 一 个 记录 出 现在 文档 中 
的 所 有 单词 的 次 数 。 因 此 ， 一 份 文档 能 被 描述 成 各 种 单词 权重 的 组 合体 。 我 们 能 够 设置 条 
件 ， 筛 选 出 更 有 意义 的 单词 。 而 且 ， 我 们 能 构建 出 现在 文档 中 所 有 单词 的 频率 直方 图 ， 这 
就 是 一 个 特征 向 量 。 这 个 特征 向 量 被 用 于 文本 分 类 。 

思考 下 面 的 句子 。 

名 1: The children are playing in the playground. 


句 2: The playground has a lot of space. 

名 3: Lots of children like playing in an open space. 

通过 思考 上 面 的 三 个 句子 ， 我 们 能 够 得 到 下 面 14 个 唯一 的 单词 : 

the children are playing mn playground has a lot of space like an open 

这 里 有 14 个 不 同 的 单词 。 我们 可 以 用 出 现在 每 句 话 中 的 单词 次 数 为 每 一 句 话 构建 一 个 
直方 图 。 每 一 个 特征 向 量 都 将 有 14 维 ， 因 为 有 14 个 不 同 的 单词 : 
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河 椒 : 攀 下 直下 到 王 站 让 站 站 不 肥 训 

名 2: [1,0,0,0,0,1,1,1,1,1,1,0,0,0] 

3 [00 LL 

既然 已 经 提取 了 这 些 特征 向 量 ， 我 们 就 可 以 使 用 机 器 学 习 算 法 来 分 析 这 些 数 据 。 编 1 
程序 15.5 来 使 用 词 袋 模型 提取 一 个 词 频 矩 阵 。 

旦 序 15.5 使 用 词 袋 模型 提取 词 频 矩阵 : 


1: importnumpy as np 

2: from sklearn.feature extraction.text import CountVectorizer 
3: from nltk.corpus import brown 

4: from text_chunker import chunker 

5 

6: input data="'join(brown.wordsO[:5600]) 

7: chunk size = 900 

8: text chunks = chunker(input data, chunk size) 

10: chunks=[] 

11: for count chunk in enumerate(text_chunks): 

用: d= findex': count, ‘text': chunk} 

13: chunks.append(d) 

14: 

15: count vectorizer= CountVectorizer(min_d 人 =7, max_d 人 =18) 
16: document term matrix = count Vectorizer.fit_transform([chunk['text] for 
DT: chunk in chunks]) 
18: 

19: vocabulary = np.array(count vectorizer.get_feature names()) 
20: 

21: chunk names=[] 

22: foriin range(len(text_chunks)): 

23: chunk names.append('Chunk'+ stri+ 1)) 

24: 


25: print("\nDocument Term Matrix:") 


26: formatted text="{:>9}'* (len(chunk names)+ 1) 

27: print(\n', formatted_text.format( Word', *chunk names), \n', *"*76) 
28: for word, item in zip(vocabulary, document term matrix.T): 

29: output = [word] + [str(freq) for freq in item.data] 

30: print(formatted_text.format(*output)) 


输出 : 


Document Term Matrix: 
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Word Chunk1 Chunk2 Chunk3 Chunk4 Chunk5 Chunk6 Chunk7 


六 玉米 济 六 米 闵 六 六 六 洲 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 闵 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 
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在 本 程序 中 我 们 使 用 词 贷 模型 提取 一 个 词 频 人 矩阵。 我们 从 skleam (用 于 数据 挖掘 和 机 
器 学 习 等 领域 ， 封 装 了 大 量 的 机 器 学 习 算法 ) 的 特征 提取 模块 中 导入 CountVectorizer， 它 
可 以 把 收集 到 的 文本 文档 数据 转换 成 单词 矩阵 ， 并 对 单词 进行 计数 。 我 们 还 是 使 用 Brown 
语料库 作为 输入 文本 ,将 上 一 节 中 的 分 块 函数 导入 进来 。 这 次 ,我 们 从 Brown 语料库 中 读 
入 5600 个 单词 ， 并 定义 每 块 的 单词 数 为 900， 然 后 使 用 chunker 函数 将 文本 进行 分 块 。 程 
序 的 第 10 一 13 行将 所 分 的 块 转换 为 字典 项 。 接 着 我 们 使 用 CountVectorizer 方法 对 单词 进 
行 计数 ， 并 提取 单词 矩阵 。 该 方法 需要 两 个 输入 参数 ， 第 一 个 参数 是 出 现在 文档 中 单词 的 
最 小 频率 度 ， 第 二 个 参数 是 出 现在 文档 中 的 单词 的 最 大 频率 度 。 这 两 个 频 度 参考 文本 中 单 


词 的 出 现 次 数 。 


max_ df: 可 以 设置 为 范围 在 [0.0 1.0] 的 float， 也 可 以 设置 为 没有 范围 限制 的 int， 默 认 
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为 1.0。 这 个 参数 的 作用 是 作为 一 个 阅 值 ， 当 构造 语料库 的 关键 词 集 的 上 时候， 如 果 某 个 词 的 
词 频 大 于 max df， 这 个 词 不 会 被 当 作 关 键 词 。 如 果 这 个 参数 是 float， 则 表示 词 出 现 的 次 数 
与 语料库 文档 数 的 百分比 ,如 果 是 int, 则 表示 词 出 现 的 次 数 。 如 果 参 数 中 已 经 给 定 了 词汇 ， 
则 这 个 参数 无 效 。 

min_df: 类 似 于 max _ df， 不 同 之 处 在 于 如 果 某 个 词 的 词 频 小 于 min_df， 则 这 个 词 不 会 
被 当 作 关键 词 。 

程序 的 第 19 行 是 提取 词汇 表 , 它 指 的 是 在 前 一 步 中 提取 的 不 同 单词 的 列表 。 接着 我 们 
为 每 一 个 块 生成 显示 名 称 。 最 后 ， 打 印 该 单词 矩阵 。 在 程序 的 输出 中 ， 我 们 能 够 看 到 文档 
的 单词 矩阵 和 每 个 单词 在 每 一 块 的 出 现 次 数 。 

词 袋 模型 非常 简单 ， 但 还 需要 与 一 些 文本 处 理 技术 相 搭配 才能 在 应 用 中 取得 较 好 的 效 
果 。 图 15.4 展示 了 利用 词 袋 横 型 构建 文本 特征 的 基本 流程 。 


词 频 词 频 特征 


图 15.4 词 袋 模型 应 用 的 基本 流程 


提示 : 

停止 词 : 词典 中 包含 一 些 诸如 “的 ”“ 也 ”“ 了 ”等 词语 。 这 些 词语 是 构成 中 文句 子 的 
基本 字 词 ， 无 论文 档 围绕 什么 主题 ， 这 些 词语 都 不 可 避免 地 大 量 出 现 ， 但 却 对 区 分 不 同文 
档 的 主题 毫 无 帮助 。 类 似 于 这 样 不 携带 任何 主题 信息 的 高 频 词 称 为 停止 词 。 

低频 词 : 出 现 次 数 极 低 的 词汇 ， 通 常 是 一 些 不 常用 的 专 有 名 词 。 它 们 可 能 出 现在 特定 
的 文章 中 ， 但 是 并 不 能 代表 某 一 类 主题 。 


第 15 章 ”自然 语言 处 理 。263。 


15.7 案例 : 构建 一 个 性 别 识别 器 


性 别 识别 是 一 个 有 趣 的 问题 。 既 然 如 此 ， 我 们 将 使 用 启发 式 的 方法 来 构建 一 个 特征 向 
量 , 并 且 使 用 它 训 练 一 个 分 类 器 。 这 里 使 用 的 启发 式 是 被 给 定名 字 的 最 后 N 个 字母 。 例如 ， 
假设 名 字 以 ia 结尾 ， 它 很 可 能 是 - -个 女性 的 名 字 ， 如 Amelia 或 者 Genelia。 另 外 ， 如 果 名 
字 以 水 结尾 ， 它 更 可 能 是 一 个 男性 的 名 字 ， 如 Mark 或 者 Clark。 由 于 不 确定 要 使 用 的 字母 
的 确切 数量 ， 我 们 将 使 用 这 个 参数 来 找 出 最 佳 答案 。 

假设 我 们 要 对 Sophia、Edward、William、Shirley 这 四 个 名 字 进 行 分 析 , 进而 判断 性 别 。 
我 们 用 资料 库 中 己 有 的 训练 数据 来 创建 一 个 朴素 贝 叶 斯 分 类 器 ， 再 使 用 这 个 分 类 器 对 这 些 
名 字 进 行 测试 。 我 们 把 N 的 值 分 别 设置 为 1、2、3、4、5。 使 用 NLTK (自然 语言 处 理工 
有 具 包 ) 中 提供 的 内 置 方法 来 计算 分 类 器 的 准确 性 。 让 我 们 来 看 看 程序 15.6 是 如 何 执行 的 。 

旦 序 15.6 ”使 用 词 袋 模型 提取 词 频 矩 阵 : 


import random 

2 from nltk import NaiveBayesClassifier 

3 from nltk.classify import accuracy as nltk_accuracy 

4: from nltk.corpus import names 

和 

6: def extract_features(word, N=2): 

Te last_n _letters = word[-N:] 

8: return {'feature': last_n_letters.lowerO} 

9: 

10: if_name 一 '_ main 

ML: male_list = [(name, "male') for name in names.words('male.txt'")] 
2 female list = [(name, 'female') for name in names.words('‘female.txt'")] 
13: data = (male_list + female list) 

14: 

13: random.seed(5) 

16: random.shuffle(data) 

ys 

18: input_names = ['Sophia', 'Edward', "William', 'Shirley’] 

19: num train = int(0.8 * len(data)) 

20: 


21: foriin range(1, 6): 


“264 。 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 》 


2 Print(\nNumber of end letters:', i) 

23: features = [(extract_features(n, i), gender) for (n, gender) in data] 
24: train_data, test_data = features[:num train], features[num train:] 
pi classifier = NaiveBayesClassifier.train(train_data) 

26: 

27: for name in input_names: 

28: print(name, '-->", classifier.classify(extract_features(name, D)) 
29: 

30: accuracy=Iound(100* nltk accuracy(classifier, test_data), 2) 
3 print(Accuracy: '+ str(accuracy) + '%") 

输出 : 


Number of end letters: 1 
Sophia --> female 
Edward --> male 
William --> male 
Shirley --> female 
Accuracy: 74.7% 


Number of end letters: 2 
Sophia --> female 
Edward --> male 
William --> male 
Shirley --> female 
Accuracy: 78.79% 


Number of end letters: 3 
Sophia --> female 
Edward --> male 
William --> female 
Shirley --> male 
Accuracy: 77.22% 


Number of end letters: 4 
Sophia --> female 
Edward --> male 
William --> male 
Shirley --> female 
Accuracy: 69.98% 
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Number of end letters: 5 
Sophia --> female 
Edward --> female 
William --> male 
Shirley --> female 
Accuracy: 64.63% 


分 析 : 

首先 ,我们 导入 了 random 模块 ，random 方法 返回 随机 生成 的 一 个 实数 ,范围 在 [0,1) 
之 间 。 接 着 我 们 从 NLTK 库 中 导入 朴素 贝 叶 斯 分 类 器 和 测试 分 类 器 准确 度 的 模块 ， 最 后 导 
入 语料库 中 的 names 模块 。 

在 程序 15.6 中 , 我 们 首先 定义 一 个 函数 ， 从 输入 的 词汇 中 提取 最 后 N 个 字母 ， 程 序 的 
第 6~8 行 实现 了 这 一 点 。 接 着 我 们 定义 主 函 数 ， 从 scikit-learn 包 中 提取 训练 数据 ， 这 个 数 
据 包 含 被 标记 的 男性 和 女性 的 名 字 。 程 序 的 第 15 一 16 行 是 生成 一 个 随机 数字 生成 器 并 对 数 
据 进 行 洗 牌 。 

提示 : 

seed() 方 法 用 于 指定 随机 数 生成 时 所 用 算法 开始 的 整数 值 ， 如 果 使 用 相同 的 seed 值 ， 
则 每 次 生成 的 随即 数 都 相同 ， 如 果 不 设 置 这 个 值 ， 则 系统 根据 时 间 来 自己 选择 这 个 值 ， 此 
时 每 次 生成 的 随机 数 因 时 间 差 异 而 不 同 。shuffle0 方 法 将 序列 的 所 有 元 素 随机 排序 。 

注意 : 

这 两 个 方法 是 不 能 直接 访问 的 ,需要 导入 random 模块 , 然后 通过 random 静态 对 象 调 
用 该 方法 。 

之 后 我 们 定义 了 一 些 用 于 测试 的 示例 名 称 ， 并 且 定 义 了 用 于 训练 和 测试 的 数据 的 百 分 
比 。 数 据 的 80% 将 被 用 来 进行 训练 。 我 们 使 用 最 后 N 个 字符 作为 特征 向 量 来 预测 性 别 ， 改 
变 这 个 参数 ， 我 们 看 看 准确 度 是 如 何 变化 的 。 程 序 的 第 21 一 25 行 是 从 1~6 循环 遍历 参数 
N 的 不 同 长 度 来 提取 特征 值 ， 然 后 我 们 把 这 些 特征 值 分 为 训练 数据 和 测试 数据 ， 训 练 数据 
来 构建 一 个 朴素 贝 叶 斯 分 类 器 。 程序 的 第 27、28 行 是 使 用 训练 的 模型 预测 输入 数据 的 输 
出 。 最 后 我 们 使 用 NLTK 中 提供 的 内 置 方法 来 计算 分 类 器 的 准确 性 并 打印 出 来 。 

程序 的 输出 显示 了 测试 数据 的 准确 性 和 预期 结果 。 可 以 看 到 准确 性 在 两 个 字母 时 达到 
最 高 ， 然 后 开始 下 降 。 
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15.8 总 结 


在 这 一 章 中 ， 我 们 学 习 了 关于 各 种 自然 语言 处 理 的 基本 概念 。 讨 论 了 分 词 以 及 如 何 将 
输入 文档 分 离 成 多 个 词 。 还 学 习 了 如 何 使 用 stemming 和 lemmatization 将 单词 还 原 成 基本 
形式 。 

我 们 还 讨论 了 什么 是 词 袋 模型 ， 并 且 为 输入 的 文本 构建 了 一 个 文档 的 单词 矩阵 ， 之 后 
学 习 了 怎样 使 用 机 器 学 习 进 行文 本 的 分 类 。 我 们 还 使 用 启发 式 构建 了 一 个 性 别 识别 器 。 


15.9 练 习 


(1) 自己 输入 一 些 单词 ， 分 别 使 用 snowball stemmer 和 lemmatization 进行 词 形 还 原 ， 
观察 输出 并 比较 它们 的 区 别 (参考 程序 15.2 和 15.3) 。 

(2) 简 述 词 袋 模型 的 工作 原理 。 

(3) 自己 定义 一 个 包含 两 个 主题 的 文本 。 


第 16 章 语音 识别 技术 


在 本 章 中 ， 我 们 将 认识 语音 识别 技术 。 将 要 学 习 : 
计算 机 感知 声音 。 

计算 机 如 何 理解 声音 一 一 频谱 识别 。 

具体 应 用 一 一 语音 识别 。 

基于 Python 的 语音 识别 程序 介绍 。 

语义 理解 。 


DOOO DO 


16.1 计算 机 感知 声音 


在 日 常生 活 中 想必 大 家 都 用 过 智能 手机 ， 很 多 智能 手机 中 都 有 一 个 十 分 方便 的 功能 ， 
那 就 是 通过 语音 下 达 命令 来 让 手机 执行 ， 例 如 ， 我 们 对 手机 说 “地 图 ”， 我 们 的 手机 就 会 
打开 它 里 面 的 地 图 App， 这 就 用 到 了 语音 识别 的 技术 ， 运 用 这 项 技术 的 基础 就 是 手机 能 够 
感知 我 们 的 声音 。 类 似 的 ， 如 果 我 们 想 对 计算 机 下 达 命令 让 它 打开 某 个 文件 夹 ， 同 样 要 使 
用 到 语音 识别 这 项 技术 。 那么 现在 问题 就 来 了 一 一 我 们 都 知道 人 类 是 通过 耳 人 条 感知 声音 的 ， 
那么 手机 或 者 计算 机 是 如 何 感知 声音 的 呢 ? 

其 实 我 们 是 通过 对 声波 的 一 系列 处 理 最 终 转 化 为 便于 计算 机 存储 和 处 理 的 音频 文件 
(MP3 格式 等 ) 。 首 先 我 们 的 话 简 采 集 到 声波 通过 传感器 转换 为 电信 号 〈 如 电压 ) ， 就 好 
比 我 们 的 耳 条 里 面 的 听觉 感受 器 将 声音 传递 给 听觉 神经 。 

但 是 不 同 于 我 们 的 大 脑 ， 计 算 机 是 无 法 识别 连续 信号 的 ， 所 以 我 们 只 能 将 采样 到 的 电 
信号 变 得 离散 〈 不 连续 ) ， 无 论 是 在 时 间 还 是 声波 的 幅度 上 都 是 如 此 ， 我 们 通过 时 间 采 样 
使 得 声波 在 时 间 上 离散 ， 同 理 我 们 通过 分 层 的 思想 让 声波 的 幅度 也 离散 ， 这 样 我 们 连续 的 
声波 就 转换 成 了 离散 的 电信 号 ， 让 我 们 的 计算 机 可 以 识别 ， 并 且 编 码 保存 起 来 。 这 一 系列 
的 处 理 主要 包括 了 采样 、 量 化 和 编码 等 步 又 〈 见 图 16.1) 。 
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图 16.1 声音 的 采样 、 量 化 和 编码 
(1) 采样 : 采样 就 是 在 某 些 特定 的 时 刻 对 模拟 信号 进行 测量 ， 对 模拟 信号 在 时 间 上 进 
行 量化 。 有 具体 方 法 是 每 隔 相等 或 不 相等 的 一 小 段 时 间 采 样 一 次 。 
(2) 量化 : 分 层 就 是 对 信号 的 强度 加 以 划分 ， 对 模拟 信号 在 幅度 上 进行 量化 。 有 具体 方 
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法 是 将 整个 强度 分 成 许多 小 段 。 

(3) 编码 : 编码 就 是 将 量化 后 的 整数 值 用 二 进 制 数 来 表示 。 

通过 上 面 的 描述 ， 我 们 大 概 了 解 了 计算 机 是 如 何 把 自然 界 中 的 语音 转换 为 音频 文件 的 
过 程 ， 下 面 我 们 通过 录音 程序 16.1 来 进一步 理解 这 个 过 程 。 
旦 序 16.1 录音 小 程序 : 


1: import wave 

2: from pyaudio import PyAudio,palInt16 

3: ”framerate=8000# 采 样 率 

4: ”NUM_SAMPLES=2000# 缓 存 大 小 

5: defsave wave file(filename,data): 

6: "save the date to the wavfile" 

8 入 wf=wave.open(filename,'wb') 

8: wf.setnchannels(channels) 

9: wf.setsampwidth(sampwidth) 

10: wf.setframerate(framerate) 

Ms wf.writeframes(b"".join(data)) 

2 wf.closeO 

13: 

14: def my_recordO: 

15: pa=PyAudio0 

16: stream=pa.open(format = paInt16,channels=1, 
UE rate=framerate,input=Trme, 
18: frames_ per_buffer=NUM_ SAMPLES) 
19: my_buf=[] 

20: count=0 

2 正 print(" 录 音 中 : ") 

2: while count<TIME*10:# 控 制 录音 时 间 

23: string_audio_data = stream.read(NUM SAMPLES) 
24: my_buf.append(string audio_data) 

PE count+=1 

26: prnt(.) 

7 save_wave file('01.wav',my_buf) 

28: Stream.close0 

29: chunk=2014 


四 
部 
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31: if_name 一 main *: 
3 my_record() 

33: print( 录 音 完成 !) 
输出 : 


控制 台 输 出 : 
录音 中 : 


录音 完成 ! 

文件 路 径 输出 : 

该 程序 会 在 程序 文件 路 径 下 生成 一 个 音频 文件 一 一 01.wav。 

分 析 : 

在 上 面 的 程序 中 ,首先 需要 导入 一 个 扩展 库 一 一 PyAudio， 打开 “命令 提示 符 ” 窗 口 输 
入 sudo apt-get install python-pyaudio python3-pyaudio 完成 安装 。PyAudio 是 语音 处 理 
的 Python 库 ， 它 提供 了 录音 、 音 频 播放 等 许多 音频 处 理 的 功能 。 

安装 好 之 后 就 可 以 进行 代码 的 编写 了 。 首 先 确定 音频 的 保存 数据 格式 为 paInt16， 录 
音 的 采样 率 为 framerate=8000， 即 1s 内 对 声音 信号 的 采样 次 数 ， 录 音 缓存 区 大 小 为 
NUM_SAMPLES=2000。 然 后 我 们 定义 录音 的 数据 流 stream， 通 过 PyAudio 的 实例 对 象 
pa=PyAudio() 来 进行 录音 ， 程 序 的 第 22 一 28 行 是 录音 的 控制 流程 ， 录 音 完成 后 调用 音频 保 
存 方 法 save_wave file0 将 文件 保存 为 .wav 文件 。 最 后 我 们 把 数据 流 stream 关闭 
stream.close()， 这 样 就 完成 了 一 次 录音 的 过 程 。 应 该 注意 的 是 , 我 们 的 音频 文件 如 果 没 有 指 
定 路 径 ， 则 录音 文件 自动 保存 在 和 程序 相同 的 文件 夹 下 。 

提示 : 

在 学 习 Python 的 时 候 一 定 会 使 用 到 许多 的 扩展 库 ， 如 果 你 的 Python 中 缺少 使 用 的 库 
文件 , 不 妨 到 https://pypi.org/search/ 中 去 寻找 想 要 的 库 文件 ,安装 步骤 参考 上 面 的 PyAudio 
库 的 安装 步骤 。 
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16.2 ”理解 声音 一 一 频谱 识别 

通过 对 声波 的 处 理 ， 计 算 机 可 以 感知 声音 并 且 可 以 进行 编码 储存 了 。 就 好 比 我 们 的 大 
脑 听 到 了 某 个 声音 并 记 了 下 来 ， 接 下 来 我 们 要 做 的 就 是 识别 出 这 是 什么 声音 ， 是 什么 东西 
发 出 来 的 。 那 计算 机 到 底 如 何 “ 理 解 ” 声 音 的 呢 ? 

我 们 都 听 过 很 多 歌手 唱歌 ， 有 些 歌手 的 声音 低沉 沙哑 ， 有 些 歌手 的 声音 嗪 亮 高 亢 。 即 
使 他 们 唱 同一 首 歌 ， 我 们 也 能 根据 歌手 的 声音 特色 区 分 出 是 谁 唱 的 。 

那 计算 机 是 如 何 识别 这 些 的 呢 ? 这 里 就 需要 计算 机 分 析 音 频 的 依据 一 一 频谱 ， 如 图 
16.2 所 示 。 频 谱 的 模 坐 标 代表 频率 ， 纵 坐标 代表 幅度 一 一 相应 频率 的 声音 对 应 的 振幅 。 不 
同 频 率 的 声音 占 的 能 量 多 少 ， 在 频谱 图 上 反映 的 就 是 频谱 幅度 的 相对 大 小 。 例 如 ， 一 段 乐 
曲 中 的 高 音 强 低 音 弱 ， 那 么 在 一 定 范围 内 的 频率 高 的 区 域 频 谱 的 振幅 就 大 ， 反 之 ， 在 频率 
低 的 区 域 对 应 的 频谱 幅度 大 。 
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图 16.2 频谱 图 
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物理 课 上 学 过 声音 的 三 要 素 一 一 音调 、 响 度 、 音 色 。 基 于 这 些 要 素 ， 我 们 可 以 描述 声 
音 的 特性 。 

(1) 音调 : 表示 了 声音 调子 的 高 低 , 频率 越 高 调子 越 高 , 反之 频率 越 低调 子 就 会 越 低 ， 
这 部 分 可 以 用 频谱 来 描述 出 来 。 

(2) 响 度 : 响 度 是 我 们 常 说 的 声音 的 大 小 ， 可 以 由 波形 的 幅度 来 表示 。 

(3) 音色 : 这 是 声音 的 一 种 更 加 复杂 的 特征 ， 就 算是 相同 的 音调 和 响 度 ， 不 同 的 乐器 
演奏 或 者 不 同 的 人 来 演唱 都 会 有 不 同 的 效果 。 原 因 就 是 在 不 同 的 乐器 和 声带 震动 发 声 的 过 
程 中 ， 除 了 发 出 音调 对 应 的 频率 之 外 ， 还 伴 着 一 些 高 频 的 成 分 (频率 为 2F，3F，…) ， 
我 们 称 之 为 泛音 。 这 些 高 频 的 成 分 对 应 的 幅度 各 不 相同 ， 带 来 了 特别 的 听觉 感受 。 这 也 就 
解释 了 为 什么 有 些 人 即使 唱 同一 首 歌 也 会 有 不 同 的 效果 。 

图 16.3 音色 图 中 第 一 个 最 高 峰 所 处 的 频率 就 是 音调 ， 而 在 这 个 频率 的 整数 倍 的 位 置 都 
有 不 同 大 小 的 峰值 ， 它 们 之 间 的 比例 反映 了 声音 音色 的 不 同 。 通 过 这 些 特 性 ， 我 们 就 能 大 
概 分 出 这 是 什么 发 出 的 声音 了 。 
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通过 上 面 的 文字 和 图 像 描述 ， 我 们 知道 了 区 分 声音 的 重要 依据 是 频谱 ， 接 下 来 通过 程 
序 16.2 更 加 直观 地 体会 下 不 同人 读 同 一 个 字 的 频谱 会 有 什么 不 同 。 
程序 16.2 频谱 可 视 化 : 


import wave 

import pyaudio 

import numpy 

import pylab 

wf = wave.open("D:\\Python\wavs\Do-piano-2.20s.wav", "rb") 
p= pyaudio.PyAudioO) 

stream = p.open(format=p.get_format from width(wf.getsampwidth()), 
channels=wf.getnchannels(), 

9: rate=wf.getframerate(), 

10: output=True) 

11: nframes= wf.getnframes() 

12: framerate = wf.getframerate() 

13: str_data = wf.readframes(nframes) 

14: wfclose0 

15: wave_data = numpy.fromstring(str_data, dtype=numpy.short) 
16: wave_data.shape= -1,2 

17: wave_data = wave data.T 

18: N=44100 

19: start=0 

20: df= framerate/(N-1) 

21: freq= [df*n forn inrange(0,N)] 

22: wave_data2=wave_data[O][start:start+N] 

23: c=numpy .ffi.fft((wave_data2)*2/N 

24: d=int(len(¢)/2) 

25: while freq[d]>4000: 

26: d-=10 

27: pylab.plot(freq[:d-1],abs(c[:d-1]),r) 

28: pylab.showO 


输出 : 
为 了 实现 频谱 的 区 别 我 们 分 别 录 下 男女 的 “ 啊 ” 声 的 音频 
当 打 开 的 是 man.wav 文件 时 ， 输 出 的 波形 如 图 16.4 所 示 。 


De 


man.wav 和 girl.wav。 
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图 16.4 man 的 声音 


当 打 开 的 是 girl.wav 文件 时 ， 输 出 的 波形 如 图 16.5 所 示 。 
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图 16.5 girl 的 声音 
分 析 : 
在 上 面 的 程序 我 们 还 是 调用 了 PyAudio 库 进 行 音频 的 处 理 ， 同 时 调用 pylab 库 进 行 频 
谱 图 的 绘制 。 
程序 的 第 5 行 打开 要 可 视 化 的 音频 文件 ， 根 据 文件 路 径 的 不 同 ， 我 们 可 以 进行 改动 。 
程序 的 第 6 行 我 们 实例 化 一 个 pyaudio 对 象 。 程 序 的 第 7~14 行 通过 这 个 对 象 对 音频 进行 
操作 。 程 序 的 第 13 行 是 将 读 取 到 的 音频 信息 赋值 给 str data 方便 后 面 的 音频 可 视 化 操作 。 
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程序 的 第 15~24 行 是 将 音频 信息 转换 成 构建 图 形 所 需 的 信息 ,N=44100 表示 采样 的 点 
数 ， 越 多 表示 越 精确 ，start=0 是 采样 开始 点 ， 我 们 也 可 以 修改 采样 的 开始 点 ， 选 取 我 们 想 
要 的 某 一 段 频谱 。 程序 的 第 25 一 28 行 是 频谱 图 的 设置 输出 , 通过 freq[d]>4000 可 以 设 定 输 
出 的 频率 最 大 值 ， 毕 竟 过 高 的 频率 是 我 们 用 不 到 的 。 这 样 的 控制 有 利于 去 除 无 用 的 信息 。 
通过 打开 不 同 的 音频 文件 得 到 了 不 同 的 频谱 图 像 ， 即 使 说 的 是 同一 个 字 ， 也 能 很 容易 地 区 
分 出 这 是 两 个 不 同 的 人 说 的 。 


16.3 语音 识别 原理 


介绍 了 那么 多 计算 机 处 理 声音 的 知识 ， 是 时 候 考 虑 一 下 一 一 我 们 学 习 这 些 知识 到 底 上 
来 干什么 呢 ? 举 一 个 例子 ， 我 们 都 用 过 QQ 或 者 微 信 ， 想 必 对 语音 转换 并 不 陌生 ， 在 不 广 
便 听 语音 的 时 候 往往 会 将 语音 转换 成 文字 进行 阅读 。 屠 计算 机 如 何 知道 哪个 声音 对 应 哪个 
字 呢 ? 

为 了 解决 这 个 问题 ， 需 要 知道 语音 识别 的 原理 。 之 前 介绍 了 如 何 通 过 一 整 段 音频 独 有 
的 音调 、 响 度 、 音 色 来 区 分 是 哪 种 声音 。 识 别 这 样 的 特征 少 的 分 类 任务 其 实 并 不 难 ， 但 是 
语音 识别 却 是 对 每 一 个 音 都 进行 一 个 分 类 ， 那 么 文字 有 多 少 我 们 的 类 别 就 有 多 少 ， 这 样 看 
来 即使 是 计算 能 力 很 强 的 计算 机 ， 执 行 这 样 的 任务 也 是 很 三 费 资 源 和 时 间 的 。 

那么 有 没有 好 一 点 的 方法 在 减少 类 别 的 同时 又 能 保证 准确 度 呢 ? 其 实 人 类 的 语言 都 是 
按照 一 定 的 规律 组 成 的 , 如 汉字 都 是 通过 拼音 来 确定 读 法 的 。 这 样 看 来 区 别 拼音 的 声母 (23 
个 ) 和 韵母 (24 个 ) 比 区 别 成 千 上 万 的 汉字 就 简单 很 多 了 。 不 过 仅仅 这 样 我 们 的 识别 准确 
率 还 是 不 够 ， 例 如 ，nihao 计算 机 识别 成 “你 好 ”还 是 “ 尼 浩 ” 呢 ? 如 果 是 我 们 来 识别 肯定 
是 识别 成 “你 好 ”， 因 为 我 们 都 学 过 了 汉字 的 语言 表达 规律 。 如 果 让 计算 机 也 掌握 这 项 能 
力 ， 那 么 它 识别 汉字 的 准确 度 就 基本 能 够 满足 我 们 的 需求 了 。 

我 们 通过 图 16.6 语音 识别 过 程 图 来 展现 语音 识别 的 过 程 ， 语 音 识别 技术 是 要 识别 每 
一 个 音 的 ， 所 以 需要 将 成 段 的 语音 分 成 若 十 小段， 再 将 每 个 小 段 都 识别 成 一 个 语音 帧 ， 
再 把 这 些 帧 根据 声学 特性 组 成 声母 和 韵母 ， 这 就 完成 了 我 们 语音 识别 的 第 一 个 阶段 。 也 就 
是 完成 了 识别 zhenhao 的 过 程 ， 接 下 来 我 们 就 要 确定 它 到 底 是 “ 真 好 ”还 是 “ 针 好 ”了 。 
要 完成 这 个 过 程 就 需要 通过 语言 表达 规律 即 语言 模型 来 判断 最 终 的 输出 是 符合 我 们 预期 的 
“ 真 好 ”。 
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图 16.6 语音 识别 过 程 图 
提示 : 
国内 外 语音 识别 技术 较为 先进 的 公司 有 国外 的 划 果 、 谷 歌 、 微 软 、 亚 马 逊 、Facebook， 
国内 的 科大 讯 飞 、 百 度 语音 、 捷 通 华 声 、 思 必 驰 。 这 些 公司 通过 自己 的 语音 识别 系统 为 我 
们 的 生活 带 来 了 许多 的 便利 。 


16.4 基于 了 Python 语音 识别 程序 介绍 


通过 上 面 一 节 的 介绍 我 们 知道 了 语音 识别 的 原理 和 过 程 ， 接 下 来 将 通过 程序 16.3 来 
实现 简单 的 语音 识别 功能 。 程 序 中 我 们 通过 调用 百度 的 语音 识别 API 完成 最 终 的 语音 识 
别 功 能 。 百 度 语音 API 是 一 个 免费 语音 识别 接口 ， 采 用 HTTP 方式 请 求 ， 可 适用 于 任何 
平台 的 语音 识别 , 而 且 准 确 率 基本 达到 了 我 们 正常 生活 所 需 的 标准 。 在 使 用 百度 语音 API 


第 16 章 语音 识别 技术 “277。 


之 前 我 们 要 进行 百度 语音 应 用 的 注册 用 来 获取 API KEY 和 SECRET KEY， 只 有 获取 这 
两 个 KEY， 百 度 语音 API 才能 识别 我 们 的 身份 ， 然 后 提供 相对 应 的 服务 。 识 别 的 过 程 图 
如 图 16.7 所 示 。 


说 话 发 送 音频 文件 百度 江天 放 平 台 


= 


识别 后 的 文件 


图 16.7 百度 语音 识别 过 程 图 


程序 16.3 ”语音 识别 : 


Oo ON 


import wave # 导 入 wave 处 理 库 

from pyaudio import PyAudio, paInt16 

import time 

from aip import AipSpeech 

framerate = 16000 # 采 样 频率 ， 这 里 必须 是 16000， 不 然 百 度 语音 识别 不 出 来 
NUM_SAMPLES = 2000 # 一 次 录制 的 大 小 

channels = 1# 录 制 的 声 道 ，1 为 左 声 道 ，2 为 右 声 道 

sampwidth = 2 

filepath = "F:/python3.5/ 语 音 文件 01/01.wav" # 保 存 的 路 径 ， 可 以 自 定义 
TIME = 2# 时 间 单 位 


def save_ wave_file(filename,data): 
Wf=wave.open(filename,'wb') 
wf.setnchannels(channels) 
wf.setsampwidth(sampwidth) 
wf.setframerate(framerate) 
wf.writeframes(b"".join(data)) 
eeITo17: r-sequence-item-0-expected-str-instance-bytes-found 
wfclose0 


def my_record(): 
pa=PyAudio0 
stream = pa.open(format=paImt16. channels=]1, 
Tate=framerate, input=True, 
frames per buffer=NUM SAMPLES) 
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26: my_buf=[] 


2 让 count=0 

28: while count < TIME * 10: 

29: string audio data = stream.read(NUM SAMPLES) 
30: my_buf.append(string audio_data) 

31: count += 1 

Be print(" 正 在 录音 : %d 秒 " % count) 

33: save_ Wave _file(filepath, my_buf) # 保 存 文件 

34: stream.close() 

Eo chunk = 2014 

36: 


37: def get file_content(filePath): 
38: with open(filePath, rb) as 印 : 


39: return fh.readO 

40: 

41: if_name 一 _ main 
42: # 身 份 识别 


43: APP ID ='11379632' 
44: API KEY ='QDeGxssTzE1MsvojpvVMltu41" 
45: SECRET KEY ='n9kRKRNX9hZgeQDhdhcppbN77IQdCHsgo' 


47: client = AipSpeech(APP ID, API KEY, SECRET KEY) 
48: print(" 准 备 开 始 录音 .……37) 

49: time.sleep(1) 

50: print(" 准 备 开 始 录音 .……2") 

3E time.sleep(1) 

52: print(" 准 备 开始 录音 …….1") 

535 time.sleep(1) 

54: print(" 开 始 录音 .….….") 

D5: my_record() 

56: print(" 正 在 识别 ， 请 稍 后 .……") 

SE str = client.asr(get_file_content(F:/python3.5/ 语 音 文 件 /01.wav'), "wav', 16000， 


58: {'dev_pid': 1536, }) 

59: print(" 结 果 为 : "+ (str["result"][0])) 

60: printl gd | 
输出 : 

准备 开始 录音 ….….3 

准备 开始 录音 .……2 


准备 开始 录音 .…...1 


第 16 章 语音 识别 技术 “279 。 


分 析 : 

在 这 个 程序 中 我 们 主要 用 到 两 个 Python 库 ， 第 一 个 是 PyAudio， 它 是 用 来 进行 音频 处 
理 的 ， 只 有 导入 这 个 库 才 能 实现 我 们 的 录音 功能 。 第 二 个 是 程序 第 4 行 导入 的 百度 aip, 安 
装 的 方法 是 在 命令 提示 符 中 输入 sudo pip install baidu-aip。 

导入 这 些 包 是 我 们 程序 建立 的 基础 ， 库 的 导入 和 安装 参考 16.1 节 里 面 PyAudio 库 的 安 
装 过 程 。 通 过 录音 并 将 录音 文件 保存 ， 再 将 保存 的 音频 文件 上 传 到 百度 语音 API 并 将 识别 
后 的 结果 返回 ， 最 后 我 们 将 得 到 的 结果 进行 处 理 ， 输 出 想 要 的 结果 。 程序 的 第 12 一 19 行 定 
义 了 文件 的 保存 方法 ， 因 为 需要 录音 ， 那 么 保存 成 什么 文件 还 有 保存 的 路 径 在 哪里 我 们 都 
要 定义 好 。 程 序 的 第 21 行 定义 了 录音 方法 ， 第 28 行 实现 的 是 录音 时 间 的 控制 ， 第 29 行 实 
现 的 是 录音 采样 的 缓存 大 小 设置 ， 然 后 调用 文件 保存 方法 把 我 们 的 声音 保存 成 音频 文件 。 
程序 的 第 37 一 39 行 实现 的 是 将 保存 音频 文件 读 出 来 。 通 过 第 57、58 行 的 代码 发 送 到 百度 
AIP， 最 后 在 第 59 行 输出 识别 的 结果 。 

提示 : 
因为 是 调用 百度 接口 来 进行 语音 识别 ， 所 以 我 们 需要 进行 百度 语音 识别 的 应 用 申请 ， 
完成 申请 后 会 获得 类 似 程 序 的 第 44 和 45 行 的 API Key 与 Secret Key， 只 有 这 样 我 们 才能 
调用 百度 接口 进行 识别 。 具 体 的 步骤 可 以 浏览 网 址 https:/Wiingyan.baidu.comyarticle/f3e34a12d 
focddfseb65359fhtml。 
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16.5 简单 语义 理解 


程序 16.3 中 我 们 说 “你 好 ， 我 是 小 明 ”， 通 过 百度 语音 识别 了 之 后 ， 相 当 于 我 们 知道 
对 方 说 的 话 ， 然 后 怎么 理解 这 句 话 的 意思 就 是 我 们 语义 理解 的 关键 了 。 在 我 们 日 常 与 别人 


对 话 的 时 候 ， 除 了 听 到 别人 的 话 之 外 ， 最 重要 的 还 是 到 


E 解 别人 的 意思 。 只 有 这 样 我 们 才能 


与 别人 进行 交互 ， 例 如 ， 别 人 说 “你 喜欢 什么 ? ”， 我 们 就 会 回答 “我 喜欢 ……”。 我 们 


通过 语句 中 的 关键 词 “ 你 ”“ 喜 欢 ” 来 理解 对 方 的 意思 一 一 


他 问 我 喜欢 的 东西 ， 而 不 会 理 


解 为 他 问 我 小 明 喜 欢 的 东西 。 让 计算 机 根据 关键 词 的 判断 来 进行 语义 的 理解 是 行 得 通 的 ， 


这 个 过 程 如 图 16.8 所 示 。 


文本 输入 


关键 字 提 取 


图 16.8 简单 语义 识别 的 基本 流程 


下 面 通过 程序 16.4 简单 了 解 下 什么 是 语义 的 至 
程序 16.4 简单 语义 理解 : 


print(" 请 输入 你 想 说 的 话 : 7 

text=inputO 

# 通 过 find0 查 询 文本 中 是 否 含有 某 些 词 ， 如 果 找 
you=text find(' 你 ) 

good=text.find(' 好 ') 

say= text.find(" 叫 7) 

weather=text.find(" 天 气 ") 


pr 


i 


E 解 。 


到 返回 0 


输出 对 应 的 


语句 
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7: ”handsome=text.find(" 帅 ") 
8: ”beautiful=text.find(" 漂 亮 ") 
9: ”who=text .find(" 谁 ") 

10: ”know=text.find(" 知 道 ") 
11: ”like=text.find(" 喜 欢 ") 


13: if(youis 0 & goodisO0 & say isO0): 

14: print( 你 好 啊 ， 我 是 人 工 智能 ') 

15: elif (youis 0 & handsome is 0): 

16: print(" 一 般 一 般 ， 世 界 第 三 啦 ") 

17: elif (youis 0 & beautiful is 0): 

Le: print(" 你 也 挺 漂亮 的 哈哈 "): 

19: elif weather is 0: 

20: print(" 还 好 啦 ， 反 正 我 还 感觉 不 到 ") 

21: elif (youis 0 & know is 0): 

22: print(" 很 抱歉 啊 ， 我 还 小 ， 很 多 事 都 不 知道 呢 ") 
23: elif (youis 0 & likeis 0): 

24: print(" 还 好 啦 ， 我 也 并 没有 特别 喜欢 什么 7) 
25: “else: 

26: print(" 你 说 啥 ? 再 说 一 遍 呐 ") 


输出 : 

请 输入 你 想 说 的 话 : 

天 气 挺 好 的 

还 好 啦 ， 反 正 我 还 感觉 不 到 

分 析 : 

在 程序 16.4 中 ,可 以 通过 第 1、2 行进 行 一 个 文本 的 输入 。 然 后 在 第 3 一 11 行 通 过 find0 
方法 寻找 到 我 们 需要 的 词语 ,并 赋值 给 变量 ， 如 果 在 输入 的 文本 中 找到 我 们 想 要 的 词语 会 返 
回 0。 

这 时 候 可 以 再 通过 判断 该 变量 是 否 为 0， 就 可 以 知道 文本 中 到 底 有 没有 我 们 想 要 的 词 
语 。 例 如 ， 程 序 的 第 3 和 第 4 行 查找 是 否 存在 “你 ”和 “好 ”， 如 果 含有 会 返回 0。 我 们 
通过 第 13 行 判 断 you 和 good 是 否 为 0 决定 是 否 输出 第 14 行 的 内 容 。 当 然 输入 的 文本 符合 
第 13 一 25 行 中 的 任意 一 个 判断 语句 就 会 输出 相对 应 的 内 容 。 这 种 通过 变量 组 合 来 判断 输出 
是 计算 机 实现 语义 理解 的 一 个 有 效 方 式 。 


“282 。 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 ) 


和 


16.6 总 结 


在 这 一 章 中 ， 我 们 学 习 了 计算 机 是 将 声音 信号 离散 并 将 声音 进行 存储 识别 的 ， 也 知道 
了 从 声音 的 三 要 素 一 一 音调 、 音 色 、 响 度 ， 来 区 别 声 音 的 差异 。 除 此 之 外 介绍 了 语音 识别 
的 原理 ， 我 们 建立 语音 模型 降低 语音 识别 的 识别 难度 ， 又 增加 了 语言 模型 提高 了 识别 的 准 
确 率 ， 两 个 模型 一 起 使 用 ， 让 语音 识别 功能 基本 达到 了 我 们 想 要 的 准确 度 。 我 们 调用 百度 
语音 识别 接口 实现 了 该 功能 ， 在 语音 识别 的 基础 上 ， 我 们 将 进行 简单 的 语义 理解 ， 让 程序 
执行 相应 的 命令 。 


16.7 练 习 


(1) 通过 程序 16.1 录制 两 段 音频 ， 再 通过 程序 16.2 生成 频谱 图 并 区 别 两 者 的 差异 。 
(2) 在 程序 16.4 中 定义 自己 的 变量 组 合 ， 输 出 自己 想 要 的 话 。 
(3) 利用 程序 16.3 说 几 段 话 ， 看 识别 的 准确 率 。 
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在 本 章 中 ， 我 们 将 了 解 人 工 智 能 的 一 个 重要 分 支 一 一 计算 机 视觉 ， 并 学 习 利用 计算 机 
视觉 解决 一 些 问 题 。 将 要 学 习 : 
认识 并 了 解 计算 机 视觉 的 相关 知识 。 
简单 了 解 PIL 类 库 并 学 习 基础 的 图 像 处 理 知识 。 
学 习 OpenCV 的 基础 知识 以 及 简单 应 用 。 
利用 背景 差分 法 捕 提 视频 中 的 移动 物体 。 
简单 学 习 利 用 颜色 空间 进行 目标 跟踪 。 
简单 了 解 人 脸 识 别 系统 的 工作 原理 和 步骤 。 


DOOOO DO 


17.1 计算 机 视觉 简介 


看 过 电影 《钢铁 侠 》 的 读者 一 定 会 记得 主角 斯 托 克 的 人 工 智 能 管家 一 一 贾 维 斯 ， 他 具 
有 很 高 的 智能 ， 可 以 帮助 斯 托 克 处 理 各 种 事 ， 如 设计 图 纸 、 组 装 完成 “钢铁 侠 ” 等 。 在 《 钢 
铁 侠 1》 中 有 一 个 小 细节 ， 钢 铁 侠 初次 飞行 ， 他 的 人 工 智 能 系统 在 头盔 中 显示 出 了 道路 上 
的 车 辆 信息 ， 包 括 车 辆 的 品牌 、 车 中 的 人 物 等 。 虽 然 是 电影 中 的 情节 ， 但 很 有 趣 的 是 ， 这 
确实 就 是 人 工 智能 中 计算 机 视觉 的 应 用 ， 而 且 这 也 不 再 是 科幻 ， 现 今 计算 机 视觉 技术 发 展 
的 程度 已 经 完全 可 以 做 到 。 

有 人 说 ， 计 算 机 视觉 是 人 工 智能 的 一 扇 大 门 ， 因 为 对 于 人 来 说 ， 视 觉 的 反馈 往往 更 加 
重要 ， 人 的 大 脑 皮层 中 有 70% 都 在 处 理 视觉 信息 ， 没 有 视觉 ， 人 工 智 能 将 只 会 是 一 个 空 架 
子 。 现 如 今 ， 计 算 机 视觉 早已 成 为 研究 人 工 智能 的 一 个 重要 领域 ， 也 在 各 种 领域 发 挥 着 独 
有 的 作用 。 例 如 ， 军 事 上 的 导弹 巡航 系统 、 交 通 上 的 道路 监控 系统 、 医 学 影像 处 理 、 应 用 
在 各 大 企业 单位 的 人 脸 识别 系统 以 及 现在 非常 热门 的 VR(Virtual Reality, 虚拟 现实 ) 全 息 ， 
全 都 离 不 开 计 算 机 视觉 。 

随 着 时 代 的 发 展 ， 计 算 机 技术 日 新 月 异 ，2008 年 第 一 部 《钢铁 使 》 上 了 映 的 时 候 我 们 惊 
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叹 于 机 器 人 管家 的 高 智能 ， 然 而 随 着 技术 的 不 断 深入 ， 到 了 今天 ， 人 工 智 能 管家 已 经 不 青 
是 故事 中 的 事物 ， 即 便 是 造 不 出 一 个 真正 的 钢铁 侠 ， 但 是 制造 一 个 可 以 处 理 日 常 琐 事 的 人 
工 智能 管家 却 不 再 是 个 难以 企及 的 梦想 。 也 许 到 了 未 来 ， 人 工 智 能 管家 会 像 智 能 手机 一 样 
普遍 ， 计 算 机 视觉 也 将 更 加 广泛 地 运用 到 各 行 各 业 ， 这 需要 我 们 共同 的 努力 ， 也 许 现实 版 
的 “钢铁 侠 ” 就 在 你 的 手中 诞生 。 

在 这 一 章 ， 我 们 将 学 习 计 算 机 视觉 方面 的 相关 内 容 ， 通 过 一 些 简 单 的 例子 来 加 深 我 们 
对 计算 机 视觉 以 及 人 工 智能 的 理解 。 下 面 ， 就 让 我 们 开始 学 习 计 算 机 视觉 的 相关 知识 。 


17.2 ”图 像 的 操作 与 处 理 


大 家 都 知道 ， 平 时 我 们 所 看 到 的 流畅 视频 画面 是 由 一 帧 一 帧 的 图 像 构 成 。 当 我 们 需要 
对 一 个 视频 文件 进行 分 析 时 ， 连 续 播 放 的 视频 并 不 那么 容易 进行 采样 分 析 ， 所 以 在 计算 机 
视觉 中 对 视频 的 分 析 通 常 都 是 对 视频 帧 的 分 析 。 计 算 机 视觉 就 是 一 门 研究 如 何 对 图 像 中 的 
信息 进行 自动 提取 的 学 科 。 

学 习 计算 机 视觉 首先 让 我 们 学 习 如 何 对 图 像 进行 处 理 ， 这 里 我 们 用 到 了 PIL 图 像 处 理 
类 库 ， 它 提供 了 我 们 通常 使 用 的 各 种 图 像 处 理 功能 ， 如 缩放 、 裁 剪 、 旋 转 、 颜 色 转 换 、 横 
糊 等 。PIL 官方 版 本 均 是 以 Python 2.X 的 版 本 发 行 的 ， 并 没有 针对 Python 3.X 的 PIL 版 本 ， 
这 里 我 们 可 以 使 用 Pillow 库 ， 它 是 一 群 志愿 者 在 PIL 的 基础 上 建立 的 兼容 版 本 ， 而 且 增添 
了 很 多 新 的 功能 。 推 荐 大 家 下 载 安 装 Anaconda， 它 是 一 个 开源 的 Python 包 ， 包含 了 180 
多 个 库 ， 我 们 研究 图 像 操作 所 使 用 的 Pillow、numpy、matplotlib 等 库 均 包含 在 内 ， 直 接 在 
“命令 提示 符 ” 窗 口中 利用 pip install 命令 进行 安装 即 可 。 

接 下 来 ， 通 过 程序 17.1 来 简单 了 解 图 像 处 理 的 基本 操作 。 

程序 17.1 图 像 处 理 基本 操作 : 


from PIL import Image 
import matplotlib.pylab as plt 


imgl=Image.open(img.jpg') 
img2=img].convert(L') 
img2.resize((128,128)) 


ne 
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。285。 
8: plt.subplot(2,1,1) 

9: pltimshow(imgl1) 

10: plt.subplot(2,1,2) 

11: pltimshow(img2) 

12: plt.showO 


输出 ， 如 图 17.1 所 示 : 


图 Figure 1 
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图 17.1 原 图 与 重新 调整 大 小 以 及 灰 度 转化 后 的 图 像 对 比 
分 析 : 


PIL 库 中 比较 重要 的 一 个 模块 就 是 Image， 它 包含 了 图 像 的 读 取 、 保 存 等 函数 。 例 如 ， 
程序 17.1 中 使 用 的 open0) 函 数 ， 这 很 容易 理解 ， 不 管 我 们 要 做 什么 处 理 ， 都 是 要 先 打开 图 
像 才 能 进行 后 续 的 处 理 。 我 们 还 用 了 convert0 函 数 将 图 像 转换 成 灰 度 图 ， 因 为 在 很 多 时 候 ， 
图 像 本 身 的 颜色 会 对 我 们 所 要 分 析 的 信息 造成 干扰 ， 而 灰 度 图 可 以 帮助 我 们 更 好 地 分 析 间 
题 。 最 后 还 使 用 了 resizeO) 函 数 调整 了 图 像 的 大 小 ， 将 其 调整 为 128 像素 X128 像素 大 小 的 
图 ， 在 输出 中 ， 我 们 可 以 看 到 第 二 张 图 的 坐标 轴 已 经 改变 。 
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在 程序 17.1 中 我 们 还 引入 了 matplotlib 库 , 它 具 有 十 分 强大 的 绘图 功能 。subplot(2,1,1) 
语句 代表 我 们 要 将 图 片 输出 成 两 行 一 列 的 第 一 行 ， 这 样 可 以 使 一 个 窗口 中 显示 多 幅 图 片 ， 
imshow0) 函 数 在 内 存 中 绘制 图 像 ， 并 不 显示 ， 要 用 show0 函 数 打 开 图 像 用 户 界面 ， 向 用 户 
显示 图 像 。 

很 多 时 候 我 们 在 对 一 个 图 像 进行 分 析 时 ， 图 像 的 像素 值 通常 是 一 个 很 好 的 着 手 点 ， 而 
图 像 的 直方 图 则 可 以 比较 直观 地 展示 图 像 的 像素 分 布 。 通 过 绘制 图 像 直方 图 ， 我 们 可 以 进 
行 图 像 检 索 、 图 像 分 割 、 图 像 分 类 等 。 

图 像 的 直方 图 与 数学 中 的 直方 图 类 似 ， 将 像素 值 范围 划分 成 一 定数 目的 小 区 间 ， 每 个 
小 区 间 内 就 是 落 在 该 区 间 表 示范 围 内 的 像素 数目 ， 用 这 种 形式 来 表征 图 像 中 颜色 的 分 布 情 
况 。 程 序 17.2 将 绘制 一 幅 图 像 ( 见 图 17.2 ) 的 直方 图 。 


程序 17.2 绘制 图 像 直 方 图 : 


from PIL import Image 
from pylab import * 
import numpy as np 


img=np.array(Image.open(img.jpg').convert(L')) 
figureO 

hist(img.flatten(,128) 

showO0 


人 


17.2 原 图 


输出 ， 如 图 17.3 所 示 : 
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图 Figure 1 一 已 X 
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图 17.3 原 图 对 应 的 直方 图 


分 析 : 

如 程序 17.2 所 示 ， 我 们 导入 了 一 个 新 的 库 一 一 numpy， 它 是 一 个 使 用 非常 广泛 的 科学 
计算 工具 包 。 我 们 使 用 numpy 库 的 array0 函 数 将 图 像 转化 成 一 个 数组 对 象 ， 用 三 元 组 表示 
像素 点 一 一 ( 行 、 列 、 颜 色 通道 ) 。 直 方 图 的 绘制 使 用 的 是 histO 函 数 ， 函 数 的 第 一 个 参数 
是 输入 的 图 像 ， 第 二 个 参数 指定 划分 的 小 区 间 的 数目 。 

注意 : 

hist0 〇 函数 只 接受 一 维 数 组 作为 输入 ， 所 以 我 们 需要 对 输入 图 像 做 一 些 转 换 。 这 里 我 们 
用 到 了 flatten() 函 数 ，flatten() 函 数 将 数组 按照 行 优先 原则 转化 成 一 维 数组 ， 再 利用 hist() 函 
数 绘制 即 可 。 

计算 机 视觉 中 对 于 图 像 的 操作 还 有 很 多 ， 如 旋转 、 去 噪 、 模 糊 、 扭 曲 等 ， 这 里 只 介绍 最 
简单 的 两 种 操作 ， 感 兴趣 的 同学 可 以 自行 查找 资料 ， 了 解 关 于 计算 机 图 像 处 理 的 各 种 操作 算 
法 。 下 面 我 们 将 学 习 一 个 新 的 内 容 一 一 OpenCV， 了 解 这 个 计算 机 视觉 类 库 包 含 了 哪些 操作 。 
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17.3 ”OpenCV 的 基础 知识 


计算 机 视觉 的 学 习 离 不 开 OpenCV， 它 实现 了 很 多 图 像 处 理 以 及 计算 机 视觉 方面 的 算 
法 ， 如 物体 跟踪 、 探 测 ， 人 脸 识 别 ， 视 觉 探 测 与 追踪 、 特 征 提取 等 计算 机 视觉 方面 的 应 用 。 
OpenCV 作为 一 个 开源 的 计算 机 视觉 类 库 ， 可 以 在 多 种 操作 系统 上 运行 ， 同 时 也 提供 了 大 
量 的 Java、Python、MATLAB 接口 ， 致 力 于 真实 世界 的 实时 应 用 。 

OpenCV 是 由 一 系列 C 函数 和 少量 的 C++ 类 构成 的 ， 包 含 了 计算 机 视觉 领域 的 很 多 模 
块 。 OpenCV 最 初 由 英特尔 公司 开发 ， 在 2008 年 获得 了 在 当时 十 分 具有 影响 力 的 机 器 人 公 
司 Willow Garage 的 支持 ,不 幸 的 是 ,作为 业界 传奇 的 Willow Garage 机 器 人 公司 于 2014 
年 破产 。OpenCV 在 2012 年 被 非 营 利 组 织 OpenCV.org 接管 维护 。 

Python 作为 一 种 简洁 明了 的 脚本 语言 , 在 C++ 基础 上 的 Python 接口 得 到 了 越 来 越 广 泛 
的 支持 。 我 们 可 以 根据 自己 所 安装 的 Python 版 本 选择 所 要 安装 的 OpenCV 版 本 ,不 同 的 操 
作 系 统 对 应 的 OpenCV 不 同 。 在 安装 时 ， 要 对 下 载 的 whl 文件 进行 重 命名 ,否则 就 会 报错 。 
选择 下 载 的 文件 如 图 17.4 所 示 。 


opencv python-3.4.1-cp35-cp35m-win32 .whl 


opencv python-3.4.1-cp35-cp35m-win amd64 -whl 
图 17.4 OpenCV 版 本 选择 


opencv python-3.4.1 是 OpenCV 的 版 本 ，cp35 指 的 是 计算 机 中 所 安装 的 Python 版 本 是 
3.5，Python 版 本 可 以 在 “命令 提示 符 ” 窗 口中 输入 python -version 进行 查询 (version 前 是 
两 个 -)， 根 据 计 算 机 系统 的 位 数 选择 win32 (32 位 ) 或 者 amd64(64 位 ) 。 安 装 前 要 将 文 
件 重 命名 成 opencv_python-3.4.1-cp35-none-win amd64.whl。 重 命名 后 在 “命令 提示 符 ” 窗 
口 输入 pip install opencv_python-3.4.1-cp35-none-win amd64.whl 进行 安装 ， 安 装 后 进入 
Python 命令 行 中 输入 import cv2 检验 是 否 安装 成 功 。 出 现 如 图 17.5 所 示 界 面 即 为 安装 成 功 。 


图 17.5 在 “命令 提示 符 ” 窗 口中 检验 OpenCV 是 否 安装 成 功 


OpenCV 作为 一 个 计算 机 视觉 类 库 ， 很 多 时 候 需 要 对 动态 视频 进行 分 析 、 计 算 和 处 理 。 
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OpenCV 能 够 很 好 地 支持 从 摄像 头 读 取 视频 ， 通 过 对 摄像 头 读 取 的 视频 帧 进行 分 析 ， 达 到 
最 终 需 要 的 物体 探测 或 者 跟踪 的 结果 。 如 程序 17.3 所 示 是 一 个 简单 的 小 案例 ， 用 来 打开 摄 
像 头 并 将 图 像 变 成 灰 度 图 。 

程序 17.3 ”打开 摄像 头 捕获 视频 帧 : 
1: import cv2 
1 


2 
3: cap=cv2.VideoCapture(0) 
4: while True: 
El Tet,frame=cap.read() 
6: frame=cv2.cvtColor(frame,cv2.COLOR_BGR2GRAY) 
gt cv2.imshow('Output',blur) 
8 key=waitKey(10) 
9: if key 一 27: 

0: break 

输出 ， 如 图 17.6 所 示 : 

分 析 : 

导入 OpenCV 的 cv2 模 块 ,利用 VideoCapture() 
函数 可 以 打开 一 个 本 机 文件 夹 内 的 视频 文件 ， 
也 可 以 利用 整数 来 启动 摄像 装置 ,0 代表 计算 
机 默认 摄像 头 。 打 开 视 频 /摄像 头 后 ， 看 到 的 
是 一 个 连续 的 动态 的 画面 ,这 很 不 利于 我 们 分 
析 间 题 , 所 以 对 视频 的 处 理 需 要 逐 帧 进行 ,这 
里 我 们 使 用 while 循环 来 实现 对 视频 帧 的 逐一 
提取 。 在 计算 机 视觉 的 研究 过 程 中 , 很 多 时 候 17.6 ”对 获取 的 视频 帧 进行 灰 度 处 理 
我 们 最 常用 的 RGB 颜色 模型 并 不 好 用 ， 所 以 
要 利用 cv2 模块 的 cvtColor() 函 数 进行 颜色 转换 ,参数 cv2.COLOR_BGR2GRAY 是 将 
图 像 转化 为 灰 度 图 ， 除 此 之 外 HSV 颜色 模型 的 转化 也 很 常用 。 最 后 我 们 使 用 了 
waitKey() 函 数 ， 这 个 函数 可 以 监控 键盘 操作 ，27 是 ESC 键 的 ASC 开 码 值 ， 故 只 要 按 
下 ESC 键 就 可 以 关闭 摄像 头 退出 当前 程序 。 下 面 ， 我 们 用 流程 图 17.7 来 加 深 对 这 个 
程序 的 理解 。 
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es 


图 17.7 ”对 视频 帧 进行 基本 操作 的 流程 图 
注意 : 
OpenCV 中 ， 图 像 的 颜色 模型 不 是 传统 的 RGB ， 而 是 按照 BGR 顺序 存储 的 。 颜 色 空 
间 的 转换 函数 cvtColorO 的 几 个 常用 参数 有 cv2.COLOR BGR2GRAY ( 转化 成 灰 度 图 ) 、 
cv2.COLOR_BGR2HSV ( 转化 成 HSV 颜色 空间 ) 。 


17.4 背景 差分 法 检测 物体 


在 计算 机 视觉 的 实际 应 用 中 ,我们 发 现 通常 要 想 实现 一 个 功能 ， 最 基本 的 就 是 先 要 找到 需 
要 分 析 、 计 算 的 目标 ， 例 如 ， 在 道路 监控 系统 中 ， 摄 像 头 拍 下 的 视频 画面 中 包含 道路 、 道 路 两 
侧 的 公共 设施 、 车 辆 ， 其 中 车 辆 又 包括 小 轿车 、 货 车 、 自 行车 等 ， 而 我 们 最 主要 的 就 是 需要 监 
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控 机 动车 的 行驶 状况 ， 所 以 首先 我 们 要 让 计算 机 在 视频 中 找到 机 动车 ， 而 忽略 无 关 物 体 。 再 例 
如 ， 现 在 很 多 企业 、 单 位 采用 人 脸 识 别 系统 作为 出 入 门禁 、 上 下 班 打卡 的 方式 ， 人 脸 识 别 系统 
也 是 通过 摄像 头 捕捉 到 人 脸 ， 再 将 捕捉 到 的 人 脸 图 像 与 数据 库 比 对 来 进行 身份 认证 。 

背景 差分 法 是 在 一 个 静止 的 场景 下 对 移动 物体 进行 追踪 的 方法 ， 以 背景 做 模型 ， 然 后 
在 视频 帧 中 减 去 这 一 背景 模型 ， 获 得 的 前 景 图 像 就 是 我 们 需要 追踪 的 物体 。 我 们 用 流程 图 
17.8 来 看 一 下 背景 差分 法 跟踪 目标 物体 的 过 程 。 


图 17.8 背景 差分 法 跟踪 物体 的 流程 图 
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接 下 来 ， 我 们 对 一 段 道路 检测 视频 进行 分 析 ， 如 程序 17.4 所 示 为 应 用 背景 差分 法 进行 
物体 追踪 的 结果 。 
程序 17.4 背景 差分 法 跟踪 物体 : 


1: importcv2 

2: import numpy as np 

3 

4: cap=cv2.VideoCapture(road.avi") 

5: background sub=cv2.createBackgroundSubtractorMOG2() 

6: history=100 

7: learning rate=]1.0/history 

8: while True: 

9: _,frame=cap.read() 

10: frame=cv2.resize(frame,None,fx=0.5,fy=0.5,interpolation=cv2.INTER_AREA) 
下 mask=background_sub.apply(frame,learningRate=learning_rate) 
I mask=cv2.cvtColor(mask,cv2.COLOR_GRAY2BGR) 

ES cv2.imshow('Input',frame) 

Ld: cv2.imshow('Output',mask & frame) 

15: key=cv2.waitKey(100) 

16: if key==27: 

19: break 


18: cv2.destroyAlIWindowsO 


输出 ， 如 图 17.9 所 示 : 


图 17.9 原 视频 与 进行 背景 差分 后 的 视频 对 比 图 


分 析 : 
程序 17.4 应 用 了 一 个 背景 建 模 中 的 经 典 算法 一 一 混合 高 斯 分 布 (GMM ) , OpenCV 将 
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GMM 封装 成 createBackgroundSubtractorMOG2()， 利 用 createBackgroundSubtractorMOG20 
完成 了 背景 建 模 。 定 义 了 一 个 history 参数 ， 代 表 用 来 训练 背景 的 帧 的 数目 ，history 参数 与 
学 习 率 leaming rate 相互 影响 ，history 越 大 ， 学 习 率 越 低 。 在 重新 定义 好 捕捉 到 帧 的 大 小 
后 ,调用 apply0 函 数 来 进行 运动 检测 ， 得 到 的 掩 码 mask 是 灰 度 图 ， 再 转化 成 RBG 图 ， 此 
时 cvtColorO 函 数 的 参数 是 cv2.COLOR GRAY2BGR。 

在 这 个 程序 中 ， 可 以 看 到 ， 公 路 以 及 路 两 侧 的 地 砖 被 模型 化 ， 排 除 掉 背 景 干扰 ， 我 们 
可 以 比较 清楚 地 捕获 到 道路 上 飞快 移动 的 车 辆 ， 以 便 后 面 更 深 程 度 地 对 视频 进行 处 理 ， 如 
计算 车 速 是 否 超速 等 。 


17.5 利用 颜色 空间 进行 物体 跟踪 


假定 要 设计 一 个 系统 ， 对 网 球 比 赛 进行 记分 ， 在 这 种 场景 下 ,我们 需要 捕捉 球 的 轨迹 ， 
是 否 过 网 、 是 否 出 界 等 ， 而 此 时 背景 差分 法 似乎 就 不 那么 好 用 了 ， 因 为 在 球场 上 除了 运动 
的 球 还 有 运动 员 ， 我 们 不 需要 捕捉 运动 员 的 轨迹 。 这 时 候 ， 我 们 考虑 是 否 可 以 利用 颜色 进 
行 物 体 跟踪 呢 ? 限 定 网 球 的 颜色 范围 ， 跟 踪 视 频 中 符合 颜色 范围 的 物体 ， 这 是 一 种 利用 颜 
色 空 间 进 行 目标 跟踪 的 方法 。 

还 是 以 道路 监控 视频 为 例 ， 这 次 我 们 利用 颜色 空间 来 对 物体 进行 跟踪 ， 看 看 会 有 什么 
不 同 ， 有 具体 程序 如 程序 17.5 所 示 。 

程序 17.5 利用 HSV 颜色 模型 跟踪 物体 : 


import cv2 
import numpy as np 


cap=cv2.VideoCapture(' road.avi) 

while True: 
_,frame=cap.read() 
frame=cv2.resize(frame,None,fx=0.75,fy=0.75, interpolation=cv2.INTER_AREA) 
hsv=cv2.cvtColor(frame,cv2.COLOR RGB2HSV) 

9: lower=np.array([0.40.40]) 

10: upper=np.array([150,255,255]) 

Ls mask=cv2.inRange(hsv,lower,upper) 

2 Tes=cV2.bitwise_and(frame,frame.mask=mask) 

区 img=cv2.medianBlur(res,5) 


es 


“294 人 工 智 能 基础 教程 : Python 篇 ( 青 少 版 ) 


14: cv2.imshow('Input',frame 


lS cv2.imshow('Ouput',img) 
16: 

ys key=cv2.waitKey(100) 
18: if key—27: 

19: break 


20: cv2.destroyAllWindows() 


输出 ， 如 图 17.10 所 示 : 


图 17.10 原 视频 与 “第 选 ”特定 颜色 后 的 视频 对 比 图 


分 析 : 


在 程序 17.5 中 ，cvtColorO 函 数 的 参数 变 成 了 cv2.COLOR_RBG2HSV,， 是 将 RGB 图 像 
转化 成 HSV 形式 。 长 久 以 来 ，RBG 颜色 模型 的 应 用 最 为 广泛 也 广为人知 ， 但 是 在 物体 追 
踪 中 并 不 能 很 好 地 得 到 我 们 想 要 的 结果 ， 所 以 在 物体 追踪 中 我 们 通常 使 用 HSV 颜色 模型 ， 


这 是 一 种 最 接近 人 了 眼 对 颜色 的 感知 的 模型 。HSV 颜色 模型 分 别 代表 酝 ( 色调 )、 


V( 明度)。 


S( 饱 和 度 ) 、 


程序 将 图 像 转化 成 HSV 颜色 模型 的 图 像 后 ， 设 定 两 组 数值 对 图 像 的 颜色 范围 进行 限 
定 ， 得 到 图 像 中 的 感 兴趣 区 ， 即 为 mask( 掩 膜 ) ， 将 感 兴趣 区 外 的 图 像 值 设置 为 0。 后 面 我 
们 使 用 了 一 个 中 值 滤波 函数 medianBlur 〇 0 ， 消 除 图 像 噪声 , 使 图 像 边 缘 平 滑 ， 这 个 函数 有 三 个 
参数 ， 分 别 是 输入 图 像 、 输 出 图 像 以 及 滤波 模板 的 尺寸 大 小 ， 这 个 尺寸 必须 是 大 于 1 的 奇数 。 


在 程序 17.5 中 的 道路 监控 视频 示例 中 ， 可 以 看 到 如 图 17.10 所 示 的 输出 
原 视 频 图 像 ， 右 侧 为 根据 所 限定 的 颜色 范围 进行 物体 追踪 后 的 图 像 。 


注意 : 


图 像 。 左 侧 为 


我 们 可 以 看 到 , 在 这 个 例子 中 利用 颜色 空间 进行 物体 跟踪 ,由 于 颜色 范围 界定 的 原因 ， 
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导致 对 于 目标 物体 的 捕捉 并 不 十 分 精准 ， 受 到 光影 、 背 景 等 诸多 因素 的 影响 。 

可 以 设想 最 开始 我 们 举 的 网 球 比 赛 记分 系统 的 例子 ， 将 颜色 限定 为 网 球 的 黄色 ， 使 用 
颜色 空间 来 对 网 球 进行 捕捉 是 否 可 以 准确 获得 我 们 想 要 的 结果 呢 ? 运动 员 的 衣服 颜色 会 不 
会 对 结果 造成 影响 ? 颜色 限定 在 黄色 那么 如 何 对 网 球场 地 的 线 进行 捕捉 呢 ? 如 果 让 你 设计 
一 个 网 球 比赛 的 记分 系统 ， 你 能 想到 什么 样 的 办 法 呢 ? 请 同学 们 自行 讨论 。 

这 两 节 我 们 学 习 了 物体 跟踪 的 两 种 方法 ， 除 此 之 外 还 有 帧 差分 法 、CAMShift 算法 等 方 
法 可 以 对 物体 进行 跟踪 。 计 算 机 视觉 的 应 用 不 仅仅 是 物体 探测 和 运动 跟踪 ， 还 有 模式 识别 、 
图 像 理解 等 方面 ， 这 是 一 个 范围 十 分 广 的 领域 ， 能 够 发 展 的 空间 也 很 大 ， 这 里 我 们 只 挑选 
了 几 个 比较 简单 的 方面 进行 了 介绍 ， 如 果 你 对 计算 机 视觉 方向 很 感 兴趣 ， 可 以 考虑 进行 更 
深层 次 的 学 习 研究 。 


17.6 人 脸 识 别 技术 


最 后 ， 我 们 来 了 解 一 下 生活 中 最 常见 的 计算 机 视觉 应 用 一 人 脸 识别 系统 。 现 今 ， 
脸 识别 已 经 应 用 在 我 国 各 大 企业 、 单 位 、 机 场 等 场所 的 身份 认证 流程 。 人 脸 识别 系统 ， 顾 
名 思 义 就 是 采集 人 脸 图 像 并 与 数据 库 中 已 经 采集 过 的 人 脸 图 像 进行 比 对 ， 从 而 进行 身份 验 
证 的 系统 。 电 视 节 目 《最 强大 脑 》 中 曾经 有 过 这 样 一 场 特 殊 的 比赛 ， 百 度 公司 旗下 的 人 工 
智能 机 器 人 “小 度 ” 与 “最 强大 脑 ” 王 峰 对 近 千 张 人 物 的 小 学 照片 和 成 年 照片 进行 比 对 ， 
最 后 人 工 智能 以 3 : 2 获胜 。 如 果 说 ， 人 对 于 脸 的 记忆 是 基于 大 致 轮廓 和 整体 气质 ， 那 么 机 
器 人 就 是 通过 算法 和 学 习 将 这 些 一 一 分 解 ， 这 个 过 程 需要 依靠 大 规模 的 神经 网 络 ， 万 亿 级 
别 的 参数 , 千 亿 的 训练 数据 , 亿 级 别 的 特征 以 及 一 些 推理 能 力 , 是 非常 强大 的 人 工 智能 系统 。 

人 脸 识别 系统 的 工作 流程 如 图 17.11 所 示 。 


人 脸 图 像 采 集 人 脸 图 像 预 处 理 特征 提取 


匹配 与 识别 


图 17.11 人 脸 识 别 系统 的 大 致 工作 流程 


人 脸 图 像 采 集 是 通过 摄像 机 对 进行 信息 采集 的 人 员 进行 拍摄 ， 形 成 面部 图 像 文件 ， 保 
存在 数据 库 中 ; 预 处 理 是 因为 在 不 同 环境 下 对 人 脸 的 采集 受到 光照 等 诸多 外 部 因素 的 影响 ， 
不 利用 后 续 的 特征 提取 以 及 与 数据 库 进 行 比 对 ， 所 以 要 对 采集 到 的 人 脸 图 像 进行 预 处 理 ， 
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这 个 预 处 理 操 作 就 是 ee。 习 过 的 灰 度 变化 、 直 方 图 均衡 化 ， 还 有 光线 补偿 、 
一 化 等 操作 ;特征 提取 是 基于 人 的 面部 器 官 进行 特征 建 模 ， 如 五 官 之 间 的 距离 、 ee 
| 


之 间 的 角度 关系 等 ; ee 进行 人 脸 识别 时 ， 通 过 对 摄像 头 采 集 到 的 人 脸 特 征 模 型 与 数据 
库 中 己 经 采集 过 并 保存 的 数据 进行 对 比 ， 确 定 人 员 身 份 。 考 虑 到 人 脸 识 别 系统 整体 程序 的 
复杂 性 ， 我 们 用 一 个 实例 ， 学 习 一 下 人 脸 识 别 过 程 中 的 第 一 个 小 步骤 一 一 人 脸 检测 。 
在 进行 人 脸 识 别 的 时 候 ， 人 物 距离 摄像 头 的 远近 、 外 界 的 环境 均 有 可 能 对 结果 造成 影响 ， 
所 以 我 们 需要 先 在 图 像 中 检测 到 哪 一 部 分 是 人 脸 , 这 个 过 程 就 叫做 人 脸 检测 , 如 程序 17.6 所 示 。 
程序 17.6 人 脸 检 测 : 


import cv2 
face_cascade = cv2.CascadeClassifier(r'haarcascade frontalface_default.xml') 
image = cv2.imread('photo.jpg’) 
gray = cv2.cvtColor(image,cv2.COLOR_ BGR2GRAY) 
faces = face_cascade.detectMultiScale(gray,scaleFactor = 1.15,minNeighbors = 5, 
minSize = (5,5),flags = cv2.CASCADE SCALE IMAGE) 
for(x,y,w,h) in faces: 
cv2.rectangle(image,(X,y),(X+Ww,y+w),(0,255,0),2) 
cv2.imshow("Find Faces!",image) 
cv2.waitKey(0) 


pi 


0 


输出 ， 如 图 17.12 和 图 17.13 所 示 : 


图 17.12 原 图 图 17.13 检测 到 人 脸 的 图 像 
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分 析 : 

在 程序 17.6 中 ,我 们 使 用 了 CascadeClassifierO 函 数 ， 这 是 一 种 级 联 分 类 器 ， 这 里 我 们 
选用 的 是 级 联 分 类 器 中 的 "haarcascade frontalface _ default'， 这 个 XML 文件 中 包含 有 大 量 人 
脸 的 特征 值 ， 包 括 眼睛 、 鼻 子 、 嘴 、 届 和 毛 等 特征 。 

后 面 我 们 调用 的 detectMultiScaleO) 函 数 可 以 检测 出 照片 中 的 人 脸 ， 这 个 函数 有 多 个 参 
数 ， 我 们 需要 注意 的 是 第 五 个 参数 flags， 这 里 flags 参数 的 值 设 定 为 CASCADE _ SCALE_ 
IMAGE ,代表 函数 的 输出 形式 是 rect 型 , 除 此 之 外 还 有 CASCADE DO _ROUGH SEARCH， 
输出 的 是 vector 型 。 而 rectangle() 函 数 则 是 如 它 的 函数 名 一 样 , 画 一 个 矩形 , 将 识别 出 来 的 
人 脸 部 分 圈 起 来 。 


注意 : 

人 脸 识 别 系统 的 过 程 看 起 来 很 简单 ， 但 里 面包 含 了 很 多 算法 、 模 型 ， 这 里 我 们 就 不 一 
一 讲解 了 ， 感 兴趣 的 同学 在 学 习 完 这 一 部 分 后 不 妨 自己 动手 试 一 试 。 

这 样 我 们 就 大 致 了 解 了 人 脸 识别 系统 的 工作 过 程 ， 实 际 上 这 个 技术 涉及 的 知识 和 算法 
远 远 比 我 们 介绍 的 要 多 得 多 ， 需 要 考虑 到 的 情况 也 更 加 复杂 ， 如 胖 瘦 变化 、 误 老 变 化 、 化 
妆 、 头 发 的 遮挡 等 因素 均 应 考虑 在 内 。 所 以 说 这 不 是 一 个 一 旦 设计 好 就 可 以 弃 之 不 管 的 系 
统 ， 它 还 有 很 大 的 发 展 空间 ， 也 随 着 技术 的 不 断 深入 ， 有 着 很 多 可 以 优化 的 环节 。 计 算 机 
技术 就 是 这 样 富 有 魅力 ， 永 无 止境 ， 永 无 极限 ! 

从 2017 年 苹果 公司 旗下 的 iPhone X 手机 上 市 起 ， 利 用 人 脸 识 别 技术 进行 手机 解锁 已 
经 成 为 智能 手机 发 展 的 一 个 新 的 台阶 ，OPPO、HUAWEI 等 多 家 公司 随后 也 都 发 布 了 人 上 脸 
识别 手机 解锁 的 新 产品 ，“ 刷 脸 ” 时 代 的 开始 也 正式 代表 了 人 脸 识别 技术 即将 进入 全 面 普 
及 。 人 脸 识别 技术 的 应 用 领域 远 比 我 们 想象 中 的 多 ， 除 了 基本 的 人 员 身 份 认 证 ， 还 可 以 应 
用 在 公安 系统 刑侦 方面 追捕 罪犯 ， 应 用 在 银行 系统 加 大 信息 安保 力度 ， 应 用 在 电子 商务 的 
交易 过 程 中 等 。 

人 脸 识别 系统 是 计算 机 视觉 领域 的 一 个 小 成 果 ， 计 算 机 视觉 的 发 展 与 应 用 还 远 不 止 于 
此 ， 我 国人 工 智能 正 处 于 一 个 高 速 发 展 的 时 代 ，“ 人 才 是 第 一 资源 ， 创 新 是 第 一 动力 ”， 
未 来 科技 会 发 展 成 什么 样子 没有 人 可 以 预知 ， 就 像 十 年 前 “钢铁 侠 ” 是 科幻 ， 而 现在 ， 这 
是 一 种 科技 。 

【新 闻 】 人 脸 识别 技术 已 经 发 展 得 日 益 成 熟 ， 大 量 的 数据 显示 人 脸 识别 的 准确 率 已 经 
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达到 99.5%。 近 日 ， 多 伦 多 大 学 教授 Parham Aarabi 和 他 的 研究 生 Avishek Bose 开发 了 一 种 
算法 ， 可 以 干扰 人 脸 识别 系统 从 而 达到 保护 用 户 个 人 隐私 的 目的 。 反 人 脸 识别 系统 通过 在 
图 像 识别 过 程 中 加 入 一 点 点 干扰 信息 ， 可 以 将 识别 的 成 功率 降低 到 0.5%。 这 使 用 了 一 种 对 
抗 技术 ， 让 两 个 神经 网 络 进行 对 抗 ， 一 个 神经 网 络 从 数据 中 获取 人 脸 数 据 信 息 ， 另 一 个 神 
经 网 络 试图 去 破坏 第 一 个 神经 网 络 执行 的 任务 。 

人 脸 识 别 技术 为 人 们 提供 了 很 大 的 便利 ， 同 时 不 可 避免 地 存在 安全 漏洞 ， 例 如 ， 当 
我 们 在 社交 网 络 上 ， 上 传 我 们 的 照片 ,那么 不 良 商家 就 可 以 利用 人 脸 识别 系统 对 用 户 的 
个 人 信息 进行 窃取 。 那 么 ， 人 脸 识别 技术 和 反 人 脸 识 别 技术 ， 究 竟 哪 一 个 对 我 们 的 生活 
更 加 有 益 呢 ? 我 们 是 否 应 该 为 了 保护 个 人 信息 而 弃 用 人 脸 识别 系统 呢 ? 请 同学 们 自行 
讨论 。 


17.7 总 结 


本 章 我 们 学 习 了 人 工 智能 的 一 个 分 支 领域 一 计算 机 视觉 ， 学 习 了 利用 PIL 库 对 图 像 
进行 基本 处 理 和 操作 ， 还 学 习 了 一 个 功能 十 分 强大 的 计算 机 视觉 类 库 OpenCV 以 及 一 些 对 
视频 的 基本 操作 方法 ， 了 解 了 两 种 对 运动 物体 进行 跟踪 的 方法 ， 最 后 我 们 简单 学 习 了 人 脸 
识别 技术 ， 并 学 习 了 人 脸 检 测 的 方法 。 

通过 本 章 的 学 习 ， 我 们 基本 了 解 了 计算 机 视觉 的 基础 知识 和 简单 应 用 ， 当 然 这 只 是 计 
算 机 视觉 领域 的 冰山 一 角 ， 像 是 现在 比较 热门 的 无 人 驾驶 汽车 、 无 人 机 项 目 ， 还 有 医学 影 
像 方面 的 应 用 均 离 不 开 计 算 机 视觉 ， 要 想 更 深入 更 系统 地 学 习 计算 机 视觉 ， 需 要 我 们 进入 
大 学 后 继续 研究 。 


17.8 练 习 


(1) 任 选 两 幅 颜色 接近 但 不 相同 的 图 片 ， 将 这 两 幅 图 片 的 尺寸 统一 后 画 出 它们 的 直方 
图 ， 并 分 析 两 者 的 区 别 。 

(2) 利用 背景 差分 法 和 颜色 空间 法 对 一 段 网 球 比赛 视频 进行 物体 跟踪 ， 并 分 析 这 两 种 
方法 的 优 劣 。 
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(3) 之 前 我 们 学 习 了 人 脸 检 测 的 方法 ， 请 尝试 在 检测 出 人 脸 的 前 提 下 ， 检 测 出 人 的 
五 官 。 

披荆斩棘 ( 选 做 ) : 

设计 一 个 “石头 、 剪 刀 、 布 ”的 游戏 ， 游 戏 双 方 分 别 是 计算 机 和 和 用户, 计算 机 随 
机 产生 一 个 手势 ， 用 户 则 通过 调用 摄像 头 对 镜头 前 人 的 手势 进行 捕捉 ， 然 后 进行 输赢 
的 判定 。 


第 18 章 人 工 神 经 网 络 


本 章 将 学 习 人 工 神经 网 络 。 我 们 将 介绍 如 何 建 立 人 工 神 经 网 络 并 且 去 训练 它 。 此 
外 ， 还 将 讨论 感知 器 以 及 如 何 基于 此 构建 一 个 分 类 器 。 我 们 将 学 习 单 层 神经 网 络 和 多 
层 神 经 网 络 。 同 时 将 了 解 循 环 神经 网 络 。 最 后 将 使 用 人 工 神 经 网 络 来 构建 一 个 光学 字 
符 识 别 引擎 。 

学 完 本 章 后 ， 将 会 了 解 : 
什么 是 人 工 神经 网 络 。 
建立 人 工 神 经 网 络 。 
训练 人 工 神经 网 络 。 
感知 器 。 

单 层 神经 网 络 。 

多 层 神 经 网 络 。 

循环 神经 网 络 

在 光学 字符 识别 (OCR) 数据 库 中 可 视 化 字符 。 
构建 一 个 光学 字符 识别 (OCR) 引擎 。 


DBEDODDODD 


18.1 什么 是 人 工 神经 网 络 


人 工 神经 网 络 (Artificial Neural Network，ANN) ， 是 20 世纪 80 年 代 以 来 人 工 智 能 
领域 兴起 的 研究 热点 。 它 从 信息 处 理 角度 对 人 脑 神经 元 网 络 进行 抽象 ， 建 立 某 种 简单 模型 ， 
按 不 同 的 连接 方式 组 成 不 同 的 网 络 。 在 工程 与 学 术 界 也 常 直接 简称 为 神经 网 络 或 类 神经 网 
络 〈 见 图 18.1) 。 神 经 网 络 是 一 种 运算 模型 ， 由 大 量 的 节点 (或 称 神经 元 ) 之 间 相 互 连 接 
构成 。 每 个 节点 代表 一 种 特定 的 输出 函数 ， 称 为 激励 函数 〈Activation Function) 。 每 两 个 
节点 间 的 连接 都 代表 一 个 对 于 通过 该 连接 信号 的 加 权 值 ， 称 之 为 权重 ， 这 相当 于 人 工 神经 
网 络 的 记忆 。 网 络 的 输出 则 依 网 络 的 连接 方式 、 权 重 值 和 激励 函数 的 不 同 而 不 同 。 而 网 络 
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自身 通常 都 是 对 自然 界 某 种 算法 或 者 函数 的 逼近 ， 也 可 能 是 对 一 种 逻辑 策略 的 表达 。 


图 18.1 人 工 神经 网 络 

提示 : 

激励 函数 : 神经 网 络 中 的 每 个 节点 接受 输入 值 ， 并 将 输入 值 传递 给 下 一 层 ， 输 入 节点 
会 将 输入 属性 值 直接 传递 给 下 一 层 ( 隐 层 或 输出 层 ) 。 在 神经 网 络 中 ， 隐 层 和 输出 层 节 点 
的 输入 和 输出 之 间 具 有 函数 关系 ， 这 个 函数 称 为 激励 函数 。 

人 工 神 经 网 络 具有 自学 习 功 能 。 例 如 ， 实 现 图 像 识别 时 ， 只 要 先 把 许多 不 同 的 图 像样 
板 和 对 应 的 应 识别 的 结果 输入 人 工 神 经 网 络 ， 网 络 就 会 通过 自学 习 功 能 ， 慢 慢 学 会 识别 类 
似 的 图 像 。 自 学 习 功 能 对 于 预测 有 特别 重要 的 意义 。 人 工 神 经 网 络 还 具有 联想 存储 功能 。 
用 人 工 神 经 网 络 的 反馈 网 络 就 可 以 实现 这 种 联想 。 此 外 ， 人 工 神经 网 络 具 有 高 速 寻找 优化 
解 的 能 力 。 寻 找 一 个 复杂 问题 的 优化 解 ， 往 往 需要 很 大 的 计算 量 ， 利 用 一 个 针对 某 问 题 而 
设计 的 反馈 型 人 工 神经 网 络 ， 发 挥 计 算 机 的 高 速 运算 能 力 ， 可 以 很 快 找到 优化 解 。 

最 近 十 多 年 来 ， 人 工 神 经 网 络 的 研究 工作 不 断 深入 ， 己 经 取得 了 很 大 的 进展 ， 其 在 模 
式 识别 、 智 能 机 器 人 、 自 动 控制 、 预 测 估计 、 生 物 、 医 学 、 经 济 等 领域 已 成 功 地 解决 了 许 
多 现代 计算 机 难以 解决 的 实际 问题 ， 表 现 出 了 良好 的 智能 特性 。 


18.2 ”建立 人 工 神经 网 络 


人 工 智能 的 一 个 基本 前 提 是 制造 能 够 执行 满足 人 类 智能 需求 的 任务 的 机 器 。 人 类 的 大 
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脑 在 学 习 新 事物 方面 是 惊人 的 。 为 什么 不 使 用 人 类 大 脑 的 模型 来 制造 一 台 机 器 呢 ? 人 工 神 
经 网 络 是 一 种 模仿 生物 神经 网 络 行为 特征 ， 进 行 分 布 式 并 行 信息 处 理 的 算法 数学 模型 。 这 
种 网 络 依靠 系统 的 复杂 程度 ， 通 过 调整 内 部 大 量 节 点 (神经 元 之 间 相 互 连 接 的 权重 ， 从 
而 达到 处 理 信息 的 目的 。 

人 工 神经 网 络 是 由 大 量 处 理 单 元 经 广泛 互 连 而 组 成 的 
人 工 网 络 ， 用 来 模拟 脑 神经 系统 的 结构 和 功能 。 而 这 些 处 理 
单元 我 们 把 它 称 作 人 工 神经 元 。 人 工 神经 网 络 可 看 成 是 以 人 > 
工 神经 元 为 节点 ， 用 有 向 加 权 弧 连接 起 来 的 有 向 图 。 有 向 弧 : 
的 权 值 表示 相互 连接 的 两 个 人 工 神经 元 间 相 互 作 用 的 强 弱 。 
人 工 神经 元 结构 如 图 18.2 所 示 。 图 18.2 ”人工 神 经 元 模型 

人 工 神经 网 络 的 设计 使 它们 能 够 识别 数据 中 的 潜在 模式 并 从 中 学 习 。 它 们 可 以 用 于 各 
种 任务 ， 如 分 类 、 回 归 、 分 割 等 。 我 们 需要 将 任何 给 定 的 数据 转换 成 数字 形式 ， 然 后 再 将 
其 输入 到 神经 网 络 中 。 例 如 ， 我 们 处 理 许多 不 同类 型 的 数据 ， 包 括 可 视 的 、 文 本 的 、 时 间 
序列 等 。 我 们 需要 和 弄 清楚 如 何 用 一 种 可 以 被 人 工 神经 网 络 理 解 的 方式 来 表示 问题 。 

人 类 的 学 习 过 程 是 分 等 级 的 。 我 们 大 脑 的 神经 网 络 有 不 同 的 阶段 ， 每 个 阶段 都 对 应 着 
不 同 的 粒度 。 有 些 阶段 学 习 简 单 的 东西 ， 有 些 阶段 学 习 复 杂 一 些 的 东西 。 让 我 们 考虑 一 个 
视觉 识别 物体 的 例子 。 当 我 们 看 一 个 盒子 时 ， 第 一 阶段 会 识别 出 一 些 简单 的 东西 ， 如 角 和 
边缘 。 下 一 阶段 识别 了 通用 的 形状 ， 之 后 又 确定 了 它 是 什么 类 型 的 物体 。 这 个 过 程 对 于 不 
同 的 任务 是 有 差异 的 。 通 过 构建 这 个 层次 结构 ， 我 们 的 大 脑 快速 地 分 离 了 概念 并 识别 出 了 
给 定 的 物体 ， 如 图 18.3 所 示 。 


简单 阶段 


EA FL 
CC af ) 复杂 阶段 判断 物体 


图 18.3 学 习 过 程 
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为 了 模拟 人 类 大 脑 的 学 习 过 程 ， 人 工 神经 网 络 是 用 神经 元 层 构建 的 。 这 些 神经 元 的 灵 
感 来 自 于 生物 神经 元 。 人 工 神经 网 络 中 的 每 一 层 都 是 一 组 独立 的 神经 元 。 一 层 中 的 每 个 神 
经 元 与 相 邻 层 的 神经 元 相连 。 人 工 神 经 网 络 结构 示意 图 如 图 18.4 所 示 。 


Input layer Hidden layer Output layer 


图 18.4 人 工 神经 网 络 示意 图 


人 工 神 经 网 络 中 ， 神 经 元 处 理 单元 可 表示 不 同 的 对 象 ， 如 特征 、 字 母 、 概 念 ， 或 者 一 
些 有 意义 的 抽象 模式 。 网 络 中 处 理 单元 的 类 型 分 为 三 类 : 输入 单元 、 输 出 单元 和 隐 单 元 。 
输入 单元 接受 外 部 世界 的 信号 与 数据 ， 输 出 单元 实现 系统 处 理 结果 的 输出 ， 隐 单元 是 处 在 
输入 和 输出 单元 之 间 ， 不 能 由 系统 外 部 观察 的 单元 。 神 经 元 间 的 连接 权 值 反映 了 单元 间 
的 连接 强度 ， 信 息 的 表示 和 处 理 体 现在 网 络 处 理 单元 的 连接 关系 中 。 人 工 神经 网 络 是 一 
种 非 程 序 化 、 适 应 性 、 大 脑 风格 的 信息 处 理 ， 其 本 质 是 通过 网 络 的 变换 和 动力 学 行为 得 
到 一 种 并 行 分 布 式 的 信息 处 理 功能 ， 并 在 不 同 程度 和 层次 上 模仿 人 脑 神经 系统 的 信息 处 
理 功 能 。 


18.3 训练 人 工 神 经 网 络 


如 果 我 们 处 理 的 是 入 维 输入 数据 , 那么 输入 层 将 由 六 个 神经 元 组 成 。 如 果 我 们 的 训练 数 
据 中 有 M 个 不 同 的 类 ， 那 么 输出 层 将 由 M 个 神经 元 组 成 。 输 入 和 输出 层 之 间 的 层 称 为 隐藏 
层 。 一 个 简单 神经 网 络 将 由 几 个 层 组 成 , 一 个 深度 神经 网 络 将 由 许多 层 组 成 , 如 图 18.5 所 示 。 

考虑 一 个 我 们 想 要 使 用 神经 网 络 对 给 定数 据 进行 分 类 的 情况 。 第 一 步 是 收集 适当 的 训 
练 数 据 并 对 其 进行 标记 。 每 个 神经 元 都 是 一 个 简单 函数 ， 神 经 网 络 会 自动 训练 ， 直 到 误差 
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\ 


0 
Wy 


。 


输入 层 隐藏 层 输出 
图 18.5 人 工 神经 网 络 结构 图 
低 于 某 个 值 。 误 差 基 本 上 是 预测 输出 和 实际 输出 之 间 的 差 值 。 根 据 误 差 有 多 大 ， 神 经 网 络 
会 自我 调整 ， 重 新 训练 ， 直 到 它 接 近 解 决 方案 。 
人 工 神经 网 络 具 有 自学 习 和 自 适 应 的 能 力 ， 可 以 通过 预先 提供 的 一 批 相 互 对 应 的 输入 
和 输出 数据 ， 分 析 两 者 的 内 在 关系 和 规律 ， 最 终 通过 这 些 规律 形成 一 个 复杂 的 非 线 性 系统 
函数 ， 这 种 学 习 分 析 过 程 被 称 作 “ 训 练 ”。 神 经 元 的 每 一 个 输入 连接 都 有 连接 强度 ， 用 一 
个 连接 权 值 来 表示 ， 即 将 产生 的 信号 通过 连接 强度 放大 ， 每 一 个 输入 量 都 对 应 有 一 个 相关 
联 的 权重 。 处 理 单元 将 经 过 权重 的 输入 量化 ， 然 后 相 加 求 得 加 权 值 之 和 ， 计 算出 输出 量 ， 
这 个 输出 量 是 权重 和 的 函数 ， 一 般 称 此 函数 为 传递 函数 。 


泗 


18.4 感 知 器 


感知 器 ， 也 可 翻译 为 感知 机 ， 是 Frank Rosenblatt (弗兰克 。 罗 森 布 拉 特 ) 在 1957 年 就 
职 于 Cornell 航空 实验 室 (Comell Aeronautical Laboratory) 时 所 发 明 的 一 种 人 工 神 经 网 络 。 
它 可 以 被 视 为 一 种 最 简单 形式 的 前 馈 式 人 工 神经 网 络 〈 下 一 节 介 绍 ) ， 是 一 种 二 元 线性 分 
类 器 。 它 是 人 工 神 经 网 络 中 的 一 种 典型 结构 ， 它 的 主要 特点 是 结构 简单 ， 对 所 能 解决 的 问 
题 存在 着 收敛 算法 ， 并 能 从 数学 上 严格 证 明 ， 从 而 对 神经 网 络 研 究 起 到 重要 的 推动 作用 。 

感知 器 是 使 用 特征 向 量 来 表示 的 前 馈 式 人 工 神 经 网 络 ， 它 是 一 种 二 元 分 类 器 ， 把 矩阵 
上 的 输入 《实数 值 向 量 ) 映射 到 输出 值 Rx) 上 一 个 三 元 的 值 〉。 
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1 ifwex+b>0 


0 else 


re-| 


w 是 实数 的 表示 权重 的 向 量 ，w。x 是 点 积 。b 是 偏 置 ， 一 个 不 依赖 于 任何 输入 值 的 常 
数 。 偏 置 可 以 认为 是 激励 函数 的 偏 移 量 ， 或 者 给 神经 元 一 个 基础 活跃 等 级 。ftx) (0 或 1) 
用 于 进行 分 类 ， 看 它 是 肯定 的 还 是 否定 的 ， 这 属于 二 元 分 类 问题 。 如 果 b 是 负 的 ， 那 么 加 
权 后 的 输入 必须 产生 一 个 肯定 的 值 并 且 大 于 b, 这 样 才能 令 分 类 神经 元 大 于 阔 值 0。 从 空间 
上 看 ， 偏 置 改 变 了 决策 边界 的 位 置 〈 虽 然 不 是 定向 的 )。 

感知 器 是 人 工 神经 网 络 的 组 成 部 分 ， 如 图 18.6 所 示 。 它 是 一 个 单 神经 元 ， 它 接受 输入 ， 
对 它们 进行 计算 ， 然 后 产生 输出 。 它 使 用 一 个 简单 线性 函数 来 做 决定 。 假 设 我 们 处 理 的 是 
六 维 输入 数据 点 。 感 知 器 计算 这 些 入 个 数字 的 加 权 总 和 , 然后 它 添加 一 个 常数 来 产生 输出 。 
这 个 常数 被 称 为 神经 元 的 偏 置 。 值 得 注意 的 是 ， 这 些 简 单 的 感知 器 经 常 被 用 来 设计 非常 复 
杂 的 深度 神经 网 络 。 


图 18.6 感知 器 示意 图 


在 人 工 神经 网 络 领域 中 ， 感 知 器 也 被 指 为 单 层 的 人 工 神经 网 络 ， 以 区 别 于 较 复 杂 的 多 
层 感知 器 (Multilayer Perceptron) 。 作 为 一 种 线性 分 类 器 ，《 单 层 ) 感知 器 可 说 是 最 简单 
的 前 向 人 工 神 经 网 络 形式 。 尽 管 结构 简单 ， 但 感知 器 能 够 学 习 并 解决 相当 复杂 的 问题 。 感 
知 器 主要 的 本 质 缺陷 是 它 不 能 处 理 线性 不 可 分 问题 。 

下 面 我 们 通过 程序 18.1 来 加 深 对 感知 器 的 了 解 。 

程序 18.1 构建 感知 器 网 络 : 


1: -importnumpy as np 
2: ， import matplotlib.pyplot as plt 
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Import neurolab as nl 


data = np.array([[0.2, 0.3], [0.5, 0.4], [0.4, 0.6], [0.7, 0.5]) 
labels = [[0], [0], [0], [1]] 


pltfigureO 

plt.scatter(data[:, 0], data[:, 1]) 
plt.xlabel(‘Dimension 1) 
plt.ylabel(‘Dimension 2) 
plt.title('Input data) 


dml = [0, 1] 

dim2 = [0, 1] 

num output= 1 

perceptron = nlLnetnewp([diml, dim?], num output) 

error_progress = perceptron.train(data, labels, epochs=80, show=20, lr=0.03) 


pltfigure0 
plt.plot(error_progress) 
plt.xlabel(Number of epochs') 
plt.ylabel('Training error) 
plt.title('Training error progress') 
plt.gridO 

plt.showO 
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Training error progress 


0 1 2 | 4 5 
Number of epochs 


图 18.7 程序 输出 

分 析 : 

本 程序 是 构建 一 个 基于 感知 器 的 分 类 器 。 首先 , 我 们 导入 numpy、matplotlib 和 neurolab 
包 。 接 着 定义 用 于 训练 感知 器 的 数据 和 标签 (为 什么 需要 标签 呢 ? 因为 这 是 一 个 基于 监督 
学 习 的 例子 ， 下 同 ) 。 然 后 我 们 使 用 matplotlib 中 的 pyplot 模块 (提供 一 个 类 似 matlab 的 
绘图 框架 ) 绘制 输入 数据 点 ， 程 序 的 第 8 一 12 行 是 绘制 输入 数据 并 可 视 化 。 接 下 来 我 们 定 
义 两 个 向 量 ， 这 个 向 量 是 二 维 的 ， 它 们 作用 于 神经 元 的 输入 ， 再 定义 一 个 输出 神经 元 。 我 
们 用 这 两 个 输入 神经 元 和 一 个 输出 神经 元 使 用 newp() 方 法 生成 一 个 感知 器 网 络 。 再 使 用 之 
前 定义 的 数据 和 标签 训练 该 感知 器 ，train() 函 数 中 的 参数 epochs 指 迭 代 次 数 ，show 指 每 迭 
代 多 少 次 在 终端 显示 一 次 输出 ，Ir 是 学 习 率 。 最 后 ， 我 们 使 用 误差 度量 来 绘制 训练 进度 并 
可 视 化 输出 。 

在 程序 的 输出 中 ， 第 一 张 图 显示 了 输入 的 数据 点 ， 第 二 张 图 显示 了 使 用 误差 度量 绘制 
的 训练 进度 ， 我 们 可 以 看 到 在 第 四 个 阶段 的 末尾 ， 误 差 降 为 了 0。 

提示 : 

matplotlib: 它 是 Python 中 最 常用 的 可 视 化 工具 之 一 ， 可 以 非常 方便 地 创建 海量 类 型 的 
2D 图 表 和 一 些 基本 的 3D 图 表 。matplotlib 最 早 是 为 了 可 视 化 癫痫 病人 的 脑 皮层 电 图 相关 的 
信和 号 而 研发 ， 因 为 在 函数 的 设计 上 参考 了 MATLAB， 所 以 叫 作 matplotlib。 
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neurolab: 一 个 简单 而 强大 的 神经 网 络 库 。 包 括 基 础 神经 网 络 、 训 练 算法 ， 并 具有 弹性 
的 架构 ， 可 创建 其 他 网 络 ， 它 用 纯 Python 和 numpy 写成 。 


18.5 单 层 神经 网 络 


在 学 习 单 层 神 经 网 络 之 前 ， 我 们 先 学 习 一 下 神经 网 络 模 型 。 神 经 网 络 模型 从 传播 来 讲 
分 为 两 种 ， 前 馈 神经 网 络 ( 前 向 网 络 ) 和 反馈 神经 网 络 。 

(1) 前 向 网 络 : 没有 反馈 机 制 , 也 就 是 只 能 向 前 传播 而 不 能 反 向 传播 来 调整 权 值 参 数 。 
感知 器 就 属于 前 向 网 络 。 网 络 中 各 个 神经 元 接受 前 一 级 的 输入 ， 并 输出 到 下 一 级 ， 网 络 中 
没有 反馈 ， 可 以 用 一 个 有 向 无 环 路 图 表示 ， 如 18.3 节 的 图 18.5 就 是 一 个 前 向 网 络 。 这 种 网 
络 实现 信号 从 输入 空间 到 输出 空间 的 变换 ， 它 的 信息 处 理 能 力 来 自 于 简单 非 线 性 函数 的 多 
次 复合 。 网 络 结构 简单 ， 易 于 实现 。 

(2) 反馈 网 络 : 反馈 型 神经 网 络 是 一 种 从 输出 到 输入 具有 反馈 连接 的 神经 网 络 ， 其 结构 
比 前 馈 网 络 要 复杂 得 多 。 在 这 类 网 络 中 ， 多 个 神经 元 互 连 以 组 成 一 个 互联 神经 网 络 。 有 些 神 
经 元 的 输出 被 反馈 至 同 层 或 前 层 神 经 元 。 因 此 ， 信 和 号 能 够 从 正 向 和 反 向 流通 ， 如 图 18.8 所 示 。 


Input layer ”Hidden layer Output layer 


18.8 ”反馈 神经 网 络 


在 反馈 网 络 中 ， 输 入 信号 决定 反馈 系统 的 初始 状态 ， 然 后 系统 经 过 一 系列 状态 转换 以 
后 ， 逐 渐 收 敛 于 平衡 状态 。 这 样 的 平衡 状态 就 是 反馈 网 络 经 计算 后 的 输出 结果 。 

单 层 神经 网 络 即 单 层 感 知 器 (Single Layer Perceptron) 。 单 层 感知 器 是 最 简单 的 神经 
网 络 。 它 包含 输入 层 和 输出 层 ， 而 输入 层 和 输出 层 是 直接 相连 的 。 单 层 神 经 网 络 一 般 是 来 
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解决 线性 问题 的 ， 用 于 二 分 类 问题 ， 如 图 18.9 所 示 。 


Input layer Output layer 


图 18.9 单 层 神经 网 络 


算法 思想 : 首先 把 连接 权 和 闽 值 初始 化 为 较 小 的 非 零 随机 数 ， 然 后 把 有 Y 个 连接 权 值 
的 输入 送 入 网 络 ， 经 加 权 运 算 处 理 ， 得 到 的 输出 如 果 与 所 期 望 的 输出 有 较 大 的 差别 ， 就 对 
连接 权 值 参数 按照 某 种 算法 进行 自动 调整 ， 经 过 多 次 反复 ， 直 到 所 得 到 的 输出 与 所 期 望 的 
输出 间 的 差别 满足 要 求 为 止 。 

单 层 神 经 网 络 不 能 表达 的 问题 被 称 为 线性 不 可 分 问题 。 线 性 不 可 分 函数 的 数量 随 着 输 
入 变量 个 数 的 增加 而 快速 增加 ， 甚 至 远 远 超过 了 线性 可 分 函数 的 个 数 。 也 就 是 说 ， 单 层 神 
经 网 络 不 能 表达 的 问题 的 数量 远 远 超 过 了 它 所 能 表达 的 问题 的 数量 。 

构建 单 层 神经 网 络 的 例子 如 程序 18.2 所 示 。 

程序 18.2 ”构建 单 层 神经 网 络 : 
import numpy as np 


import matplotlib.pyplot as plt 
import neurolab as nl 


text = np.loadtxt('data_simple_neural.txt') 
data = text[:, 0:2] 
labels = text[:, 2:] 


So 


pltfigure0 
: plt.scatter(data[:, 0], data[:, 1]) 
: plt.xlabel(Dimension 1) 
: plt.ylabel(Dimension 2) 
: plt.title(Input data) 


于 
WO 
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14: 

15: diml min, diml max = data[:, 0].min(), data[:, 0]maxO 
16: dim2 min, dim2 max = data[:, 1].min(), data[:, 1].max() 
17: num output = labels.shape[1] 

18: dml =[dml min, dim]l max] 

19: dim2 = [dim? min, dim2 max] 

20: mn =nlLnetnewp([diml, dim?2], num output) 

21: error progress = nn.train(data, labels, epochs=100, show=20, lr=0.03) 
22: 

23: pltfigureO 

24: pltplot(error progress) 

25: plt.xlabel(Number ofepochs) 

26: pltylabel(Training error) 

27: plt.title('Training error progress) 

28: pltgrid0 

29: plt.showO 

30: 

31: print(\nTest results:) 

32: data_test = [[0.5, 4.2], [4.7, 0.3], [3.6, 7.9]] 

33: for item in data_test: 

34: print(item, '-->", nn.sim([itemD)[OD 


输出 ， 如 图 18.10 所 示 : 


Input data 


Dimension 2 


Dimension 1 
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Training error progress 


Training error 
vw hm a 
一 Cn 一 
T T T 


内 
T 


bag 
己 
T 


0 20 40 60 80 100 
Number of epochs 
图 18.10 程序 输出 
Epoch: 20; Error: 4.0; 
Epoch: 40; Error: 4.0; 
Epoch: 60; Error: 4.0; 
Epoch: 80; Error: 4.0; 
Epoch: 100; Error: 4.0; 
The maximum number of train epochs is reached 


Test results: 

[0.5, 4.2] --> [1.0.] 

[4.7, 0.3] -> [1.0.] 

Berol Sd] 

分 析 : 

程序 18.2 和 程序 18.1 类 似 。 首 先导 入 相关 包 ， 我 们 使 用 data_simple_neural.txt 文本 中 
提供 的 数据 来 作为 输入 。 该 文本 的 每 一 行 包含 以 空格 作为 分 隔 的 4 个 数字 ， 前 两 个 数字 形 
成 了 数据 点 ， 后 两 个 数字 是 标签 。 你 可 以 根据 自己 所 想来 定义 该 文本 中 的 数据 。 我 们 在 程 
序 中 加 载 该 文本 ， 并 将 输入 数据 分 为 训练 数据 和 标签 使 用 。 接 下 来 绘制 输入 数据 点 。 以 上 
代码 完成 之 后 ， 我 们 为 每 个 维度 提取 最 小 值 和 最 大 值 ， 然 后 定义 输出 层 中 神经 元 的 数量 。 
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接 下 来 定义 两 个 向 量 ， 向 量 中 的 数据 是 每 个 维度 的 最 小 值 和 最 大 值 。 我 们 使 用 这 些 参数 生 
成 一 个 单 层 神经 网 络 ， 并 使 用 训练 数据 和 标签 来 训练 该 神经 网 络 。 然 后 ， 我 们 绘制 训练 进 
度 。 之 后 ,我 们 定义 一 些 测试 数据 点 ， 并 使 用 这 些 数 据点 进行 网 络 的 仿真 ，sim0 〇 函数 实现 
了 网 络 的 仿真 。 最 后 打印 测试 结果 。 

在 程序 的 输出 中 ， 第 一 张 图 显示 了 输入 数据 点 ， 第 二 张 图 显示 了 训练 进度 。 在 终端 的 
输出 中 显示 了 和 迭代 的 次 数 ,我 们 规定 了 每 迭代 20 次 显示 一 次 ,和 迭代 100 次 之 后 ， 最 大 和 迭代 
次 数 已 经 达到 。 然 后 是 对 测试 数据 点 的 测试 结果 ， 如 果 你 在 2D 图 形 中 查找 这 些 测试 数据 
点 ， 则 可 以 直观 地 验证 预测 的 输出 是 否 正确 。 


18.6 ”多 层 神 经 网 络 


为 了 提高 精确 度 ， 我 们 需要 给 神经 网 络 提供 更 多 的 自主 性 。 这 意味 着 神经 网 络 需要 不 
止 一 层 来 提取 训练 数据 中 的 潜在 模式 。 

MLP (Multi-layer Perceptron) ， 即 多 层 感 知 器 ， 也 就 是 多 层 神经 网 络 。 它 不 仅仅 只 有 
- 层 隐 藏 层 ， 如 图 18.11 所 示 。 根 据 实 际 的 情况 或 者 是 算法 的 需要 ， 多 层 神 经 网 络 可 以 有 
两 层 或 更 多 的 隐藏 层 。 它 是 一 种 前 向 结构 的 人 工 神经 网 络 ， 映 射 一 组 输入 向 量 到 一 组 输出 
向 量 。MLP 可 以 被 看 作 是 一 个 有 向 图 ， 由 多 个 节点 层 组 成 ， 每 一 层 全 连接 到 下 一 层 。 除 了 
输入 节点 ， 每 个 节点 都 是 一 个 带 有 非 线 性 激活 函数 的 神经 元 〈 或 称 处 理 单元 ) 。 一 种 被 称 
为 反 向 传播 算法 的 监督 学 习 方法 常 被 用 来 训练 MLP。 MLP 是 感知 器 的 推广 ,克服 了 感知 器 
不 能 对 线性 不 可 分 数据 进行 识别 的 弱点 。 


Input layer Hidden layers Output layer 


PP 全 
二 


图 18.11 多 层 神经 网 络 
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接 下 来 我 们 用 代码 构建 一 个 多 层 神经 网 络 的 例子 ， 如 程序 18.3 所 示 。 
程序 18.3 ”构建 多 层 神经 网 络 : 


OR 


» 


a 
se 


15: 


i 
人 


四 四 Pb 
人 


import numpy as np 
import matplotlib.pyplot as plt 
import neurolab as nl 


min val = -20 

max val=20 

num points= 150 

x= np.linspace(min_ val, max_val, num points) 
y=2*np.square(x)+7 

y/=np.linalg.norm(y) 


data = x.reshape(num points, 1) 
labels = y.reshape(num_ points, 1) 


pltfigureO 
plt.scatter(data, labels) 
plt.xlabel(‘Dimension 1) 
pltylabel(CDimension 2) 
plttitle(Iput data) 


nn=nl.net.newff([[min val, max_vall]], [10. 6, 1]) 

nn.trainf = nl.train.train gd 

error_progress = nn.train(data, labels, epochs=1200, show=100, goal=0.01) 
output = nn.sim(data) 

y_pred = output.reshape(num points) 


pltfigureO 
plt.plot(error_progress) 
plt.xlabel(Number of epochs') 
plt.ylabel('Error'’) 
plt.title('Training error progress) 


X_dense = np.linspace(min val, max_val, num points * 2) 

y_dense pred = nn.sim(x_dense.reshape(x_dense.size,1)).reshape(x_dense.size) 
plt.figure() 

plt.plot(x_dense, y_dense pred, '-', x, y, '.", x, y_pred, 'p'") 

plt.title(Actual vs predicted) 

pltshow0 
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输出 ， 如 图 18.12 所 示 : 


Input data 


0.175 


0.150 


0.125 上 


0.100 


Dimension 2 


0.075 


0.050 上 


0.025 上 


T 


0.000 


1 1 1 1 1 1 1 1 


-20 -15 -10 3 0 和 10 15 20 
Dimension 1 


Training error progress 
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50 


上 
S 
T 


Error 
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Actual vs predicted 


0.175 上 : 
0.150 上 
0.125 上 
0.100 上 
0.075 上 
0.050 上 
0.025 上 


0.000 上 上 


-0 = 0 -3 0 3 10 15 20 
图 18.12 输出 结果 


Epoch: 100; Error: 0.11331967842182422; 
Epoch: 200; Error: 0.02710494554279251; 
Epoch: 300; Error: 0.08570676411013539; 
Epoch: 400; Error: 0.05766512665344843; 
Epoch: 500; Error: 0.05757099489196255; 
Epoch: 600; Error: 0.050491014550849124: 
Epoch: 700; Error: 0.04685468635504871; 
Epoch: 800; Error: 0.04273185529871567; 
Epoch: 900; Error: 0.03917842801570279; 
Epoch: 1000; Error: 0.03589262044974862; 
Epoch: 1100; Error: 0.032897717239481: 
Epoch: 1200; Error: 0.030183541423230622:; 
The maximum number of train epochs is reached 


分 析 : 

这 段 代码 的 目的 是 创建 一 个 多 层 神经 网 络 。 首先, 导入 相关 包 。 接着 根据 方程 y= 
2x?+7 生成 一 些 样本 数据 点 ,然后 将 这 些 点 进行 规范 化 处 理 。linspace() 函 数 的 作用 是 在 
指定 的 间隔 内 返回 均匀 间隔 的 数字 。linalg.norm() 是 将 数据 进行 规范 化 处 理 ， 它 是 一 种 
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数据 预 处 理 技 术 。 重 塑 上 述 变 量 ， 创 建 用 于 训练 网 络 的 数据 集 和 标签 。 接 下 来 绘制 输入 
数据 。 

完成 之 后 ， 我 们 使 用 之 前 定义 过 的 参数 生成 一 个 包含 两 个 隐藏 层 的 多 层 神经 网 络 ， 
newfftO 函 数 是 生成 一 个 前 馈 BP (Back Propagation ) 神经 网 络 。 第 一 个 隐藏 层 有 10 个 神经 
元 ,第 二 个 隐藏 层 有 6 个 神经 元 。 你 可 以 自 定义 隐藏 层 中 的 神经 元 数量 ， 也 可 以 自 定义 隐 
藏 层 的 数量 。 我 们 的 任务 是 预测 值 ， 所 以 输出 层 将 包含 单个 神经 元 。 之 后 我 们 把 该 网 络 的 
训练 算法 设置 为 梯度 下 降 法 。 我 们 使 用 生成 的 训练 数据 和 标签 来 训练 这 个 神经 网 络 。 接 着 
在 训练 数据 点 上 运行 神经 网 络 ， 使 用 y_pred 接收 输出 值 。 程 序 的 第 27~31 行 是 绘制 训练 
进度 并 可 视 化 。 最 后 我 们 绘制 实际 与 预测 的 输出 关系 图 。 

在 程序 的 输出 中 第 一 幅 图 显示 了 输入 数据 ， 第 二 幅 图 显示 训练 进度 ， 第 三 幅 图 显示 了 
实际 与 预测 的 输出 关系 。 我 们 可 以 看 到 预测 输出 基本 上 遵循 总 体 趋势 。 如 果 继 续 训练 网 络 
并 减 小 误差 ， 你 将 会 看 到 预期 的 输出 将 更 加 准确 地 匹配 输入 曲线 。 在 终端 的 输出 中 显示 了 
1200 次 迭代 次 数 。 

BP (Back Propagation ) 神经 网 络 是 1986 年 由 Rumelhart ( 鲁 梅 尔 哈 特 ) 和 McClelland 
(麦克 莱 兰 德 ) 为 首 的 科学 家 提出 的 概念 ， 是 一 种 按照 误差 逆向 传播 算法 训练 的 多 层 前 馈 
神经 网 络 ， 是 目前 应 用 最 广泛 的 神经 网 络 。 其 基本 思想 是 ， 学 习 过 程 由 信和 号 的 正 向 传播 与 
误差 的 反 向 传播 两 个 过 程 组 成 。 正 向 传播 时 ， 输 入 样本 从 输入 层 传 入 ， 经 隐 含 层 逐 层 处 理 
后 ， 传 向 输出 层 。 若 输出 层 的 实际 输出 与 期 望 输出 不 符 ， 则 转向 误差 的 反 向 传播 阶段 。 误 
差 的 反 向 传播 是 将 输出 误差 以 某 种 形式 通过 隐 层 向 输入 层 逐 层 反 传 ， 并 将 误差 分 挫 给 各 层 
的 所 有 单元 ， 从 而 获得 各 层 单元 的 误差 信号 ， 此 误差 信号 即 作 为 修正 各 单元 权 值 的 依据 。 
这 种 信号 正 向 传播 与 误差 反 向 传播 的 各 层 权 值 调整 过程 ， 是 周而复始 地 进行 的 。 权 值 不 断 
调整 的 过 程 ， 也 就 是 网 络 的 学 习 训 练 过 程 。 此 过 程 一 直 进 行 到 网 络 输 出 的 误差 减少 到 可 以 
接受 的 程度 ， 或 进行 到 预先 设 定 的 学 习 次 数 为 止 。 

提示 : 

梯度 下 降 法 : 梯度 下 降 是 迭代 法 的 一 种 ,可 以 用 于 求解 最 小 二 乘 问题 。 梯 度 下 降 法 的 含 
义 是 通过 当前 点 的 梯度 方向 寻找 到 新 的 迭代 点 。 基 本 思想 可 以 这 样 理解 : 从 山上 的 某 一 点 
出 发 ， 找 一 个 最 陡 的 坡 走 一 步 ( 也 就 是 找 梯度 方向 ) ， 到 达 一 个 点 之 后 ， 再 找 最 陡 的 坡 再 
走 一 步 ， 我 们 不 断 地 这 么 走 ， 直 到 走 到 最 “ 低 ” 点 ( 最 小 花费 函数 收敛 点 ) 。 
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18.7 ”循环 神经 网 络 


到 目前 为 止 ， 我 们 一 直 在 处 理 的 都 是 静态 数据 。 人 工 神经 网 络 也 很 擅长 为 序列 数据 建 
模 。 尤 其 是 循环 神经 网 络 在 这 方面 尤为 突出 。 时 间 序 列 数据 是 我 们 这 个 世界 上 最 常见 的 连 
续 数据 形式 。 当 使 用 时 间 序 列 数 据 时 ， 我 们 不 能 只 使 用 通用 的 学 习 模型 。 我 们 需要 描述 数 
据 中 的 时 序 依赖 关系 ， 这 样 就 可 以 构建 一 个 健壮 的 模型 。 

循环 神经 网 络 (Recurrent Neuron Network，RNN) 是 一 种 对 序列 数据 建 模 的 神经 网 络 
〈 见 图 18.13) 。RNNs 的 目的 是 用 来 处 理 序列 数据 。 在 传统 的 神经 网 络 模型 中 ， 是 从 输入 
层 到 隐藏 层 再 到 输出 层 ， 层 与 层 之 间 是 全 连接 的 ， 每 层 之 间 的 节点 是 无 连接 的 。 但 是 这 种 
普通 的 神经 网 络 对 于 很 多 问题 却 无 能 为 力 。 例 如 ， 要 预测 句子 的 下 一 个 词 是 什么 ， 一 般 需 
要 用 到 前 面 的 词 ， 因 为 一 个 句子 中 前 后 词 并 不 是 独立 的 。 如 当前 词 是 “很 ”， 前 一 个 词 是 
“天 空 ”， 那 么 下 一 个 词 很 大 概率 是 “ 蓝 ”。RNNs 之 所 以 称 为 循环 神经 网 络 ， 即 一 个 序 
列 当 前 的 输出 与 前 面 的 输出 也 有 关 。 具 体 的 表现 形式 为 网 络 会 对 前 面 的 信息 进行 记忆 并 应 
用 于 当前 输出 的 计算 中 ， 即 隐藏 层 之 间 的 节点 不 再 无 连接 而 是 有 连接 的 ， 并 且 隐 藏 层 的 输 
入 不 仅 包括 输入 层 的 输出 还 包括 上 一 时 刻 隐藏 层 的 输出 。 理 论 上 ，RNNs 能 够 对 任何 长 度 
的 序列 数据 进行 处 理 。 但 是 在 实践 中 ， 为 了 降低 复杂 性 往往 假设 当前 的 状态 只 与 前 面 的 几 
个 状态 相关 。 


Input Hidden Hidden Output 


图 18.13 ”循环 神经 网 络 
有 别 于 传统 的 机 器 学 习 模 型 中 隐 层 单元 彼此 间 是 完全 对 等 的 ，RNNs 中 间 的 隐藏 层 从 
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左 向 右 是 有 时 序 的 ， 因 此 隐藏 层 单元 之 间 是 要 讲究 先 来 后 到 的 。 我 们 用 一 段 代 码 来 了 解 循 
环 神经 网 络 是 如 何 工作 的 ， 如 程序 18.4 所 示 。 
程序 18.4 构建 循环 神经 网 络 : 


1: importnumpy as np 

2: ， import matplotlib.pyplot as plt 

3: ， import neurolab as nl 

4: 

5: def get data(num points): 

6: wave 1=0.49* np.sin(np.arange(0, num points)) 

?上 wave 2=3.62* np.sin(np.arange(0, num _ points)) 

8: wave_3 = 1.2 * np.sin(np.arange(0, num _points)) 

9: Wave_4=4.6* np.sin(np.arange(0, num points)) 

10: 

ll: amp_1 = np.ones(num points) 

也 : amp_2 = 2+np.zeros(num points) 

3: amp_ 3=3.1* np.ones(num points) 

14: amp 4= 0.9 + np.zeros(num points) 

IS: 

16: wave = np.array([Wwave_1,wave 2,wave_3,wave 4]).reshape(num points *4, 1) 
7 

18: amp = np.array([[amp_1, amp_2, amp_3, amp_4]]).reshape(num points* 4, 1) 
1 

20: return wave, amp 

21: 

22: def visualize_output(nn, num points_test): 

23 Wave, amp = get_data(num points_test) 

24: output = nn.sim(wave) 

生计 plt.plot(amp.reshape(num points test* 4)) 

26: plt.plot(output.reshape(num points_test * 4)) 

2 

28: if_name 一 ' main ': 

29: num points= 50 

30: wave, amp = get_data(num points) 

3 

32: nn= nl.net.newelm([[-3,3]], [9; 1], [nltrans.TanSig0, nltrans.PureLin0]) 
33: nn.layers[0].initf = nl.init.InitRand([-0.1, 0.1].'wb) 

34: nn.layers[1].initf = nl.init.InitRand([-0.1, 0.1], wb) 

3 nn.init(O) 

36: eITOT_progress = nn.train(Wwave, amp, epochs=1200, show=100, goal=0.01) 
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3 六 output = nn.sim(wave) 
38: 
39: plt.subplot(211) 
40: plt.plot(error_progress) 
41: plt.xlabel(Number of epochs') 
42: plt.ylabel(Error’) 
43: plt.subplot(212) 
44: plt.plot(amp.reshape(num points * 4)) 
45: plt.plot(output.reshape(num points* 4)) 
46: plt.legend(['Original', 'Predicted']) 
47: 
48: pltfigureO 
49: plt.subplot(211) 
50: visualize_output(nn, 83) 
Sl: plt.xlim([0, 300]) 
S28 plt.subplot(212) 
= Visualize_output(nn, 48) 
54: plt.xlim([0, 300]) 
35: plt.showO 
输出 ， 如 图 18.14 所 示 : 
3 
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0 50 100 150 200 250 300 


0 50 100 150 200 250 300 
图 18.14 程序 输出 结果 


Epoch: 100; Error: 0.6873216412094455; 
Epoch: 200; Error: 0.9081901243612933; 
Epoch: 300; Error: 0.06353499722527695; 
Epoch: 400; Error: 0.05278743365484468; 
Epoch: 500; Error: 0.04501848491408758; 
Epoch: 600; Error: 0.07467196765059253; 
Epoch: 700; Error: 0.03905240909170196; 
Epoch: 800; Error: 0.037838042930685434: 
Epoch: 900; Error: 0.03913527185304737; 
Epoch: 1000; Error: 0.03707538500462401; 
Epoch: 1100; Error: 0.035189353608558564: 
Epoch: 1200; Error: 0.035847937592551296: 
The maximum number of train epochs is reached 


分 析 : 

该 程序 是 构造 一 个 循环 神经 网 络 。 首 先 ， 导 入 相关 包 。 然 后 定义 两 个 函数 ， 第 一 个 函 
数 的 作用 是 生成 训练 网 络 所 需 的 训练 数据 和 标签 , 第 二 个 函数 用 于 可 视 化 神经 网 络 的 输出 。 
get_data() 函 数 接收 一 个 num points 参数 ， 首 先 创建 4 个 正弦 波 ， 再 为 整个 波形 创造 不 同 的 
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振幅 , 然后 生成 整个 波形 和 振幅 , 最 后 返回 这 两 个 值 。visualize_ outputO) 函 数 接受 两 个 参数 ， 
一 个 是 神经 网 络 ， 另 一 个 是 测试 数据 点 ， 首 先 我 们 得 到 训练 网 络 所 需 的 参数 ， 然 后 使 用 该 
参数 进行 网 络 仿真 ， 接 着 绘制 输出 并 可 视 化 。 上 述 操作 完成 之 后 ， 我 们 定义 主 函 数 ， 并 定 
义 样本 数据 点 。 这 里 我 们 定义 了 50 个 数据 点 ， 并 使 用 这 些 数据 点 生成 了 波形 和 振幅 。 接 着 
我 们 创建 一 个 包含 两 层 的 循环 神经 网 络 。newelm() 函 数 是 创建 一 个 Elman BP 神经 网 络 。 为 
每 一 层 设置 初始 化 函数 ,程序 的 第 33 一 35 行 实现 了 这 一 点 。 我们 使 用 之 前 生成 的 波形 和 振 
幅 训练 该 神经 网 络 ， 再 在 网 络 上 运行 训练 数据 ， 用 output 接收 输出 结果 。 程 序 的 第 39 一 46 
行 是 绘制 输出 ， 第 48 一 55 行 是 在 未 知 的 测试 数据 上 测试 神经 网 络 的 性 能 。 

在 程序 的 输出 中 ， 第 一 幅 图 的 上 半 部 分 显示 了 训练 进度 ， 下 半 部 分 显示 了 在 输入 波形 
之 上 的 预测 输出 。 第 二 幅 图 的 上 半 部 分 显示 了 增加 数据 点 之 后 神经 网 络 是 如 何 模拟 波形 的 ， 
下 半 部 分 显示 的 是 缩短 了 的 波形 。 在 终端 上 我 们 可 以 看 到 神经 网 络 的 训练 欠 代 了 1200 次 。 

Elman 神经 网 络 是 一 种 带 有 反馈 的 两 层 BP 网 络 结构 , 其 反馈 连接 是 从 隐藏 层 的 输出 到 
其 输入 端 。 这 种 反馈 方式 使 得 Elman 网 络 能 够 探测 和 识别 时 变 模式 。 其 隐藏 层 又 称 为 反馈 
层 ， 神 经 元 的 传递 函数 为 TanSig0， 它 是 一 个 反正 切 函数 。 输 出 层 为 线性 层 ， 传 递 函 数 为 
PureLin0， 它 是 一 个 纯 线性 函数 。 这 种 特殊 的 两 层 网 络 可 以 任意 精度 逼近 任意 函数 ， 唯 一 
的 要 求 是 其 隐藏 层 必须 具有 足够 的 神经 元 数目 。 隐 藏 层 神经 元 数 越 多 ， 则 逼近 复杂 函数 的 
精度 就 越 高 。Elman 网 络 和 传统 的 两 层 神经 网 络 的 不 同 之 处 在 于 其 第 一 层 具 有 反馈 连接 ， 
它 可 以 存储 前 一 次 的 值 ， 并 应 用 到 本 次 计算 中 。 反 馈 状态 不 同 ， 则 输出 结果 不 同 。 因 为 网 
络 可 以 存储 信息 ， 所 以 它 不 但 可 以 存储 空间 模式 ， 也 可 以 学 习 时 间 模 式 。 


18.8 在 光学 字符 识别 数据 库 中 可 视 化 字符 


人 工 神经 网 络 可 以 使 用 光学 字符 识别 (OCR) 。 这 可 能 是 最 常见 的 例子 之 一 。 光 学 字 
符 识别 是 识别 图 像 中 手写 字符 的 过 程 。 我 们 可 以 使 用 人 工 神 经 网 络 来 识别 数据 库 中 字符 ， 
并 将 其 可 视 化 。 在 开始 构建 这 个 模型 之 前 ， 需 要 一 个 可 用 的 数据 集 ， 我 们 需要 从 
http://ai.stanford.edu/~btaskar/ocr 中 下 载 一 个 名 为 letter.data 的 文件 ， 它 是 一 个 光学 字符 识 
别 数据 库 。 当 下 载 并 安装 完成 所 需 的 数据 集 ， 我 们 就 可 以 开始 进行 编程 了 ， 如 程序 18.5 
所 示 。 


。322 。 人 工 智能 基础 教程 : Python 篇 〈 青 少 版 ) 


旦 序 18.5 “可视化 光学 字符 识别 数据 库 中 的 字符 : 


1: importos 

2: importsys 

3: import cv2 

4: import numpy as np 

二 

6: input file = "letter.data' 

7: img resize factor= 16 

8: start=6 

9: end=-l 

10: height, width = 16, 8 

ll 

12: with open(input file,'r) asf: 

13: for line in f.readlines(): 

14: data = np.array([255 * float(x) for x in 
15: line.split(\t)[start:end]]) 
16: 

D7: img = np.reshape(data, (height, width)) 
18: img_scaled = cv2.resize(img, None, fx=img _resize_factor, 
19: fy=img _resize_factor) 
20: cv2.imshow(Imasge' img_scaled) 

21: 

2 c=cv2.waitKey0 

23: 让 c 一 27: 

24: break 


输出 ， 如 图 18.15 所 示 : 


图 18.15 程序 输出 结果 
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分 析 : 

这 段 代码 的 作用 是 在 光学 识别 数据 库 中 可 视 化 字符 。 首 先 ， 导 入 相关 的 包 。 其 中 包括 
os 模块 、sys 模块 、cv2 模块 和 numpy 模块 。os 模块 简单 来 说 它 是 一 个 Python 的 系统 编程 
的 操作 模块 ， 可 以 处 理 文件 和 目录 这 些 我 们 日 常 手动 需要 做 的 操作 ， 它 是 对 操作 系统 进行 
调用 的 接口 。sys 模块 提供 了 一 系列 有 关 Python 运行 环境 的 变量 和 函数 。cv2 是 OpenCV 官 
方 的 一 个 扩展 库 ， 里 面 含 有 各 种 有 用 的 函数 以 及 进程 。 

首先 ， 我们 加 载 光 学 字符 识别 数据 库 中 的 数据 ,然后 定义 一 些 加 载 数据 所 需 的 其 他 可 
视 化 参数 。 我 们 将 图 像 的 比例 系数 设置 为 16， 从 每 行 的 第 6 个 元 素 开 始 读 取 数据 直到 行 结 
尾 ， 图 像 的 高 和 宽 设置 为 16 : 8。 接 着 我 们 循环 迭代 该 文件 中 每 行 的 数据 ， 直 到 用 户 按 下 
Esc 键 ， 该 文件 的 每 一 行 都 是 以 Tab 分 隔 符 隔 开 的 。 程 序 的 第 17 一 20 行 是 将 数组 转换 为 图 
像 ， 调 整 其 大 小 并 进行 可 视 化 。 最 后 检查 用 户 是 否 按 下 了 Esc 键 ， 如 果 是 ， 则 退出 循环 。 
27 是 Esc 键 所 对 应 的 ASCII 码 。 

运行 代码 ， 可 以 看 到 一 个 显示 字符 的 输出 窗口 。 我 们 可 以 继续 按 空格 键 来 查看 更 多 字 
符 。 在 程序 的 输出 中 我 们 截取 了 两 张 截图 ， 第 一 张 是 字符 o， 第 二 张 是 字符 io 

提示 : 

OpenCV 的 全 称 是 Open Source Computer Vision Library。OpenCV 是 一 个 基于 (开源) 
发 行 的 跨 平台 计算 机 视觉 库 ， 可 以 运行 在 Linux、Windows 和 Mac OS 操作 系统 上 。 它 轻 量 
级 而 且 高 效 一 一 由 一 系列 C 函数 和 少量 C++ 类 构成 ,同时 提供 了 Python、Ruby、MATLAB 
等 语言 的 接口 ， 实 现 了 图 像 处 理 和 计算 机 视觉 方面 的 很 多 通用 算法 。 


18.9 构建 光学 字符 识别 引擎 


我 们 已 经 学 习 了 如 何 使 用 这 些 数据 ， 现 在 让 我 们 用 人 工 神经 网 络 构建 一 个 光学 字符 识 
别 系统 ， 如 程序 18.6 所 示 。 
程序 18.6 构建 光学 字符 识别 引擎 


1: -importnumpy as np 
2: import neurolab as nl 
3 

4: input file= "letter.data’ 


42: 
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num datapoints = 40 
orig_labels = 'encode' 
num orig labels = len(orig labels) 


num train = int(0.9 * num datapoints) 
num test = num datapoints - num train 
start=6 

end=-1 


data=[ 
labels =[] 
with open(input_file, 'r) asf: 
for line in freadlines(): 
list_vals = line.split(\t") 
if list_vals[1] not in orig_labels: 
continue 
label = np.zeros((num _orig labels, 1)) 
label[orig_labels.index(list_vals[1])]= 1 
labels.append(label) 
cur_char = np.array([float(x) for x in list_vals[start:end]]) 
data.append(cur_char) 
if len(data) >= num_datapoints: 
break 


data = np.asfarray(data) 
labels = np.array(labels).reshape(num_datapoints, num_orig_labels) 
num dims = len(data[0]) 


nn=nl.net.newff([[0, 1] for _ in range(len(data[0]))], 
[128, 16. num orig_ labels]) 

nn.trainf = nl.train.train gd 

error_progress = nn.train(data[:num train,:], labels[:num train,:], 
epochs=5000, show=500, goal=0.01) 


print(\nTesting on unknown data:') 

predicted_test = nn.sim(data[num train:, :]) 

for iin range(num test): 
print(\nOriginal:', orig_labels[np.aremax(labels[i1])]) 
print(Predicted:', orig_labels[np.aremax(predicted_test[i)]) 
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输出 : 


Epoch: 500; Error: 22.450588249822218; 
Epoch: 1000; Error: 4.644646562423083; 
Epoch: 1500; Error: 4.609393371036187: 
Epoch: 2000; Error: 4.658739623259052; 
Epoch: 2500; Error: 4.663467055273863; 
Epoch: 3000; Error: 4.660673574025427; 
Epoch: 3500; Error: 4.651609857054005; 
Epoch: 4000; Error: 4.635088375051949; 
Epoch: 4500; Error: 4.595192857240792; 
Epoch: 5000; Error: 4.11986688543853; 
The maximum number of train epochs is reached 


Testing on unknown data: 


Original: o 
Predicted: o 


Original: n 
Predicted: n 


Original: d 
Predicted: d 


Original: n 

Predicted: n 

分 析 : 

该 程序 是 用 神经 网 络 构造 一 个 光学 字符 识别 器 。 首 先 ， 导 入 相关 包 ， 并 加 载 输入 文件 。 
初始 化 数据 点 参数 ， 在 神经 网 络 处 理 大 量 数据 时 ， 往 往 需要 花费 很 多 时 间 来 做 训练 ， 为 了 
展示 如 何 创建 这 个 系统 , 我 们 只 用 了 40 个 数据 点 。 接 着 我 们 定义 一 个 包含 不 同 字符 的 字符 
串 并 提取 它 的 长 度 ， 也 就 是 不 同 字符 的 数量 ， 这 个 字符 串 是 作为 测试 数据 来 测试 系统 的 。 
接 下 来 定义 训练 集 和 测试 集 的 分 割 ， 我 们 将 使 用 数据 点 的 90% 用 于 训练 ，10% 用 于 测试 。 
程序 的 第 11 一 12 行 是 定义 数据 集 提取 参数 ， 接 着 创建 数据 集 。 程 序 的 第 16 一 18 行 是 打开 
文件 ， 逐 行 读 取 ， 并 将 每 行 以 Tab 分 隔 符 分 割 。 如 果 标 签 不 在 标签 列表 中 ， 我 们 应 该 跳 过 
它 。 程 序 的 第 21 一 23 行 是 提取 当前 标签 并 将 其 附加 到 主 列表 ， 程 序 的 第 24 一 25 行 是 提取 
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字符 向 量 并 将 其 附加 到 主 列表 。 当 有 足够 的 数据 时 ， 就 跳出 循环 。 接 着 我 们 将 数据 和 标签 
转换 为 数组 ， 并 提取 数据 的 维度 。 程 序 的 第 33 一 37 行 是 创建 一 个 前 馈 神 经 网 络 ， 并 将 训练 
算法 设置 为 梯度 下 降 法 ， 使 用 之 前 生成 的 数据 和 标签 训练 该 网 络 。 最 后 我 们 预测 测试 数据 
的 输出 。 

在 程序 的 输出 中 显示 了 迭代 的 次 数 ， 我 们 将 迭代 次 数 设置 为 5000。 如 果 你 愿意 ， 也 可 
以 设置 更 大 的 迭代 次 数 ， 那 么 训练 结果 将 会 更 准确 。 我 们 可 以 看 到 ， 字 符 的 预测 输出 结果 
是 正确 的 。 如 果 你 选择 了 其 他 的 测试 数据 ， 那 么 测试 结果 可 能 会 有 所 不 同 。 


18.10， .总 结 


本 章 我 们 学 习 并 讨论 了 人 工 神经 网 络 、 如 何 构建 和 训练 神经 网 络 、 感 知 器 的 算法 思想 
以 及 如 何 基于 此 构建 一 个 分 类 器 、 单 层 神经 网 络 和 多 层 神经 网 络 的 概念 与 区 别 、 循 环 神经 
网 络 分 析 序列 数据 。 最 后 我 们 用 人 工 神经 网 络 建立 了 一 个 光学 字符 识别 引擎 。 


18.11 练 习 


(1) 自己 定义 一 些 训练 数据 和 标签 ， 生 成 一 个 感知 器 网 络 ， 并 尝试 使 用 不 同 的 参数 来 
训练 网 络 ， 观 察 它们 的 输出 参考 程序 18.1) 。 

(2) 简 述 单 层 神经 网 络 和 多 层 神 经 网 络 的 概念 和 区 别 。 

(3) 参考 程序 18.6， 定 义 不 同 的 样本 测试 字符 ， 并 增加 训练 神经 网 络 的 迭代 次 数 ， 观 
察 输出 结果 有 什么 不 同 。 
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